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文 乞 复兴 以 来 ， 源远流长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 又 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 硫 逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
葵 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ;而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 证 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意 识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 
就 将 工作 重 扣 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill，Elsevier，MIT，John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum，Bjarne Stroustrup， 
Brain W. Kernighan, Dennis Ritchie, Jim Gray，Afred V Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. 
Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 电力 相助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指 导 ， 还 不 酬劳 音 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 入 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 

电子 邮件 : hzjsj@hzbook.com 

联系 电话 : (010 ) 88379604 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 ] 号 
邮政 编码 ;100037 华章 科技 图 书 出 版 中 心 
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当今 大 数据 时 代 ， 数 据 处 理 是 各 行 各 业 须 奥 不 可 或 缺 的 重要 需求 。 数 据 库 技术 作为 20 
世纪 60 年 代 发 展 起 来 的 数据 管理 与 处 理 技术 ， 仍 然 是 该 领域 非常 重要 的 技术 。 目 前 ， 国 内 
大 学 几乎 所 有 专业 都 有 关于 数据 库 内 容 的 课程 。 但 是 ， 除 了 计算 机 科学 与 技术 和 软件 工程 专 
业 需 要 将 数据 库 作 为 系统 软件 学 习 外 ， 一 般 信 息 处 理 专业 更 关注 数据 建 模 和 数据 库 应 用 技 
术 。Jeffrey A. Hoffer 等 人 编著 的 这 本 书 不 失 为 一 本 较 好 满足 更 多 信息 处 理 专业 需求 的 教材 。 

本 书 是 作者 在 已 出 版 了 11 版 的 《现代 数据 库 管 理 》(Modern Database Management， 
MDM) 教材 基础 之 上 ， 为 满足 那些 不 需要 深入 讨论 数据 库 技 术 高 级 内 容 的 课程 而 编写 的 数 
据 库 管理 导论 教材 。 这 本 新 教材 不 是 对 《现代 数据 库 管 理 》 教 材 的 简单 裁减 ， 而 是 吸收 了 
30 年 来 使 用 《现代 数据 库 管 理 》 教 材 的 教师 、 学 生 的 经 验 和 建议 后 重新 编写 的 ， 特 别 适 合 
工商 学 院 、 管 理学 院 、 信 息 学 院 、 计 算 机 技术 专业 等 使 用 。 该 教材 不 仅 包 括 传统 数据 库 系统 
课程 关注 的 数据 库 设 计 和 SQL 主题 ， 而 且 介 绍 了 数据 库 应 用 开发 和 数据 仓库 主题 ， 更 通过 
实例 强调 了 现代 信息 系统 中 数据 组 成 的 发 展 ， 以 及 数据 资源 的 管理 ， 并 对 数据 建 模 给 出 了 更 
多 的 叙述 和 讨论 。 与 已 有 的 数据 库 教 材 比 较 ， 该 书 每 一 章 后 面 不 仅 有 与 教学 内 容 相 关 的 复习 
题 ， 还 提供 了 与 实际 组 织 、 企 业 信息 处 理 需 求 相关 的 丰富 多 彩 的 问题 与 练习 ， 这 些 对 于 学 生 
利用 课程 内 容 解 决 实际 问题 有 很 好 的 帮助 。 

本 书 主要 由 岳 丽 华 和 张 怡 文 负责 翻译 和 审 校 ， 参 加 翻译 的 还 有 张 晓 翔 、 王 傅 、 李 囊 、 桑 
奇 新 、 徐 娇 等 。 

限于 水 平 ， 译 文中 难免 有 错误 与 不 足 之 处 ， 欢 迎 读者 批评 指正 。 


译 者 
2015 年 12 月 
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很 高 兴 癌 读者 介绍 这 本 新 的 有 关 数 据 库 管 理 的 教材 。 这 本 书 从 概念 和 技术 上 讲述 了 大 多 
数 数据 和 数据 库 管理 课程 的 核心 内 容 。 我 们 特别 关注 数据 库 开发 生命 周期 中 较 深 入 的 问题 ， 
从 使 用 (增强 的 ) 实体 一 联系 模型 的 概念 数据 建 模 开始 ， 经 过 逻辑 层面 的 关系 建 模 ， 到 使 用 
结构 化 查询 语言 ( SQL) 的 数据 库 实现 。 基 于 最 新 的 教学 法 和 数据 管理 方向 的 技术 发 展 ， 我 
们 逐步 深入 地 介绍 这 个 核心 领域 。 

本 书 以 《现代 数据 库 管 理 》( Modern Database Management，MDM， 目前 该 书 已 出 版 到 
第 11 版 ) 为 基础 ， 去 掉 了 其 中 深入 和 广泛 讨论 的 高 级 内 容 ， 目 标 是 作为 数据 库 管理 导论 课 
程 教材 。 实 现 这 个 目标 并 不 意味 本 书 不 注重 质量 和 严密 性 。 使 本 书 更 加 成 功 的 几 个 外 部 因素 
是 : 特别 是 在 工商 学 校 ， 其 课程 体系 中 有 较 少 的 信息 系统 课程 ， 这 也 就 意味 着 所 有 独立 领域 
的 论题 (包括 数据 库 管 理 ) 都 必须 丢弃 一 些 内容 。 数 据 库 导论 课程 的 非 专业 比例 在 上 升 ， 那 
些 核心 内 容 之 外 的 高 级 技术 知识 对 他 们 来 说 没有 意义 。 很 多 综合 课程 中 数据 库 模 块 的 授课 时 
数 不 足 一 个 完整 学 期 ， 本 教材 非常 适合 这 样 的 课程 使 用 。 

与 市 场 上 的 数据 库 教材 比较 ， 本 教材 具有 如 下 优点 : 

e 建立 在 不 断 发 展 的 领先 教材 (《 现 代数 据 库 管理 》) 的 坚实 基础 之 上 ， 讨 论 了 最 新 的 

数据 库 管 理 核心 议题 。 

e。 所 有 内 容 都 保持 了 概念 的 严密 性 。 

e 非常 敏锐 地 关注 了 集成 的 数据 库 开 发 周期 。 

e 为 专业 设计 者 和 开发 者 (而 不 是 终端 用 户 ) 提供 了 工具 和 技术 。 

e 提供 了 大 量 难度 不 同 的 经 过 测试 的 复习 题 和 实践 材料 。 

e 结合 了 作者 多 年 在 不 同 大 学 的 教学 经 验 以 及 在 主导 产业 和 课程 组 的 研究 成 果 。 

本 教材 特别 适合 作为 工商 学 院 、 信 息 学 院 、 计 算 机 技术 专业 及 应 用 计算 机 科学 系 的 信息 
系统 或 信息 技术 课程 体系 的 一 部 分 使 用 。 信 息 系 统 协会 (Association for Information Systems， 
AIS)、 计 算 机 协会 (Association for Computing Machinery，ACM) 和 信息 处 理 协 会 国际 联盟 
( International Federation of Information Processing Societies，IFIPS) 的 课程 体系 指南 中 都 列 出 
了 这 种 类 型 的 数据 库 管理 课程 。 例 如 ， 本 书 涵盖 了 IS 2010° 建 议 的 绝 大 多 数 数据 库 核 心 内 容 ， 
IS 2010 是 最 新 的 信息 系统 本 科 生 课程 体系 。 另 外 ,除了 4 年 制 的 本 科 专 业 外 ， 该 教材 还 可 以 
满足 社区 学 院 信 息 和 计算 机 技术 专业 教学 大 纲 和 研究 生 基 础 课程 中 数据 管理 模块 的 需求 。 如 
上 面 所 讨论 的 ， 本 书 也 适用 于 非 IS 专业 学 生 ， 这 些 学 生 的 兴趣 是 广泛 的 信息 利用 领域 。 例 如 ， 
该 教材 可 以 为 研究 生 或 本 科 生 层次 的 商业 分 析 专 业 学 生 葛 定 良 好 的 数据 管理 诬 程 基础 。 


本 书 特色 
。 本 书 覆 盖 了 最 新 的 原理 、 概 念 和 技术 ， 系 统 、 全 面 、 详 细 地 介绍 了 关键 主题 。 从 《 现 


O Topi, Heikki; Valacich, Joseph S$.; Wright， Ryan T.; Kaiser Kate; Nunamaker, Jr., Jay F.; Sipior Janice C.; and de 
Vreede, Gert Jan (2010) “ IS 2010: Curriculum Guidelines for Undergraduate Degree Programs in Information 


Systems,” Communications of the Association for Information Systems: Vol. 26, Article 18. 
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代数 据 库 管理 》 一 书 中 获得 的 经 验 和 专门 知识 ， 使 得 本 书 虽 是 第 1 版 ,但 有 很 坚实 的 
基础 。 数 据 库 开发 周期 核心 内 容 是 数据 库 环境 ， 以 及 与 组 织 数据 管理 相关 的 上 下 文 
主题 ， 如 基于 互联 网 应 用 的 数据 库 开发 、 现 代数 据 仓库 概念 、 新 的 基础 设施 技术 (如 
云 计 算 )。 

本 书 重点 介绍 领先 实践 者 所 说 的 对 于 数据 库 开发 者 和 资深 数据 库 用 户 来 说 最 重 
要 的 内 容 。 我 们 与 很 多 实践 者 一 起 工作 ， 包括 数据 管理 协会 ( Data Management 
Association，DAMA) 和 数据 仓库 研究 所 (The Data Warehousing Institute，TDWI) 
的 专家 、 高 级 咨询 师 、 技 术 主 管 以 及 具有 广泛 读者 的 专业 出 版 物 的 专栏 作家 。 我 们 
提 及 这 些 专家 是 为 了 保证 本 书 所 覆盖 的 内 容 都 是 重要 的 ， 不 仅 包 括 重要 的 人 门 知 识 
和 技能 ， 而 且 包 括 引 领 职 业 生涯 成 功 的 基本 原则 和 思维 模式 。 

本 书 是 从 方便 学 生 学 习 的 角度 组 织 编写 的 ， 书 中 的 内 容 、 复 习题 、 问 题 与 练习 都 直接 
得 益 于 MDM 30 年 来 持续 的 市 场 反 馈 。 总 而 言 之 ， 本 书 的 教学 法 是 合理 的 ， 我 们 使 用 
了 很 多 图 来 清晰 地 说 明 重 要 的 概念 和 技术 ， 并 且 使 用 了 最 新 的 符号 。 本 书 的 组 织 是 灵 
活 的 ， 因 此 可 以 按照 学 生 的 情况 安排 书 中 章节 的 顺序 。 我 们 还 为 本 书 增 补 了 可 以 动手 
实践 学 习 的 数据 集 ， 并 使 用 新 的 媒体 资源 使 那些 更 有 挑战 的 议题 更 具 吸 引力 。 

你 可 能 乐意 在 课程 中 较 早 地 讲授 SQL， 该 教材 适合 这 样 做 。 首 先 ， 第 6 章 和 第 7 章 
隶 渐 深入 地 介绍 SQL 这 一 数据 库 领 域 的 核心 技术 。 其 次 ， 在 前 面 的 章节 中 包含 了 很 
多 SQL 例子 。 再 次 ， 已 有 很 多 教师 在 较 早 的 课程 中 成 功 地 使 用 了 这 两 章 SQL 内 容 。 
虽然 逻辑 上 这 两 草 是 本 书 实现 部 分 ,但 很 多 教师 是 在 第 1 章 之 后 就 开始 讲授 这 两 章 
的 内 容 ， 或 者 并 行 地 与 前 面 其 他 几 章 一 起 讲授 。 最 后 ，SQL 是 本 书 通 篇 使 用 的 语言 ， 
例如 ， 第 8 章 中 关于 Web 应 用 与 关系 数据 库 的 联系 的 讲解 以 及 第 9 章 中 的 联机 分 析 
处 理 。 

本 书 有 最 新 的 内 容 补 充 和 配套 网 站 。 


e 本 书 是 为 现代 信息 系统 课程 体系 的 一 部 分 编写 的 ， 重 点 关注 商业 系统 开发 。 书 中 所 


包含 的 内 容 和 讨论 的 议题 都 是 对 其 他 典型 课程 中 原理 的 加 强 ， 如 系统 分 析 和 设计 、 
网 络 、Web 站 点 设计 与 开发 、MIS 原理 以 及 计算 机 程序 设计 等 。 本 书 更 强调 现代 信 
息 系 统 中 数据 库 组 件 的 开发 以 及 数据 资源 的 管理 。 因 此 ， 本 书 理论 与 实践 结合 ， 支 
持 诬 程 项 目 和 其 他 实际 动手 的 课堂 练习 ， 喜 励 学生 将 贯 罕 专 业 课 程 体系 所 学 的 概念 
与 数据 库 概念 相关 联 。 本 书 的 两 位 作者 是 发 展 全 球 信息 系统 本 科 生 和 研究 生 层 面 样 
本 课程 体系 的 主要 参与 者 ， 他 们 在 本 书 中 体现 了 该 课程 体系 的 意图 。 


与 《现代 数据 库 管 理 》 之 间 的 主要 区 别 


这 两 本 书 之 间 的 最 主要 区 别 是 ，MDM 第 10 一 14 章 和 附录 A 一 人 C 的 内 容 都 不 包括 在 


本 教材 中 。 但 是 一 些 关键 内 容 ， 如 数据 质量 和 集成 ( MDM 第 10 章 ) 以 及 数据 和 数据 库 管 理 
(MDM 第 11 章 ) 在 本 书 第 1 ~ 9 章 中 有 介绍 。 分 布 式 数据 库 (MDM 第 12 章 )、 面 向 对 象 数 
据 建 模 (MDM 第 13 章 ) 以 及 利用 关系 数据 库 提供 对 象 持 久 性 (MDM 第 14 章 ) 在 本 书 中 完 
全 没有 涉及 。 男 外 ， 第 1 ~ 9 章 按 照 更 好 地 满足 本 书 读者 需求 的 方式 组 织 ， 包 括 如 下 几 点 
改变 : 
e 缩减 了 如 下 内 容 : 


> 业务 规则 


VII 


> 时 间 相 关 数 据 建 模 
> 实时 数据 仓库 
> 绥 变 维 
> SQL 联机 分 析 处 理 查 询 
删除 了 如 下 内 容 : 
> 实体 簇 
> 超过 3NF 的 范式 
> 企业 密 角 
> 数据 卷 和 使 用 分 析 
> 分 区 
> 族 文 件 
> 特定 的 专用 SQL 命令 
> 视图 上 的 某 些 特有 内 容 
> 某 个 数据 库 管 理 系统 上 的 专 有 内 容 
> PHP 
> 无 事实 的 事实 表 
我 们 的 重要 意图 是 让 MDM 和 本 教材 同时 持续 发 展 ， 作 为 课本 它们 是 紧密 相连 的 ， 但 是 
又 各 有 清晰 的 思路 和 目标 读者 。 


章节 安排 
下 面 分 章 给 出 每 一 章 的 目标 及 其 核心 内 容 。 
第 一 部 分 ”数据库 管理 的 上 下 文 


第 1 章 数据库 环境 和 开发 过 程 


本 章 讨 论 组 织 中 数据 库 的 作用 (role)， 简 要 介绍 本 书 其 他 章节 的 主要 内 容 。 在 对 数据 存 
储 和 检索 相关 的 基本 术语 进行 简要 介绍 后 ， 将 传统 的 文件 处 理 系统 和 现代 数据 库 技术 做 了 很 
好 的 比较 。 然 后 ,介绍 数据 库 环境 的 核心 组 成 ， 以 及 数据 库 应 用 的 范围 ， 这 些 应 用 都 是 当前 
组 织 正 在 使 用 的 ， 如 个 人 、 二 层 、 多 层 和 企业 级 应 用 。 企 业 级 数据 库 的 描述 包括 已 经 成 为 部 
分 企业 资源 规划 系统 和 数据 仓库 的 数据 库 。 数 据 库 技 术 的 演化 ， 从 早期 数据 库 文件 到 现代 的 
对 象 关 系 技 术 ， 都 有 所 呈现 。 接 下 来 ， 在 结构 化 生命 周期 、 原 型 系统 、 敏 捷 方 法 学 上 下 文中 
讨论 数据 库 开 发 过 程 ， 表 达 方 式 与 Hoffer、George 和 Valacich 编写 的 系统 分 析 教 材 保持 一 
致 。 本 章 还 讨论 了 数据 库 发 展 中 的 重要 问题 和 理解 数据 库 体 系 结构 与 技术 的 框架 (包括 三 级 
模式 体系 结构 )。 审 阅 者 通常 认为 该 章 对 于 学 生 学 习 系 统 分 析 和 设计 课程 很 有 益处 。 


第 二 部 分 数据库 分 析 


第 2 章 组 织 中 的 数据 建 模 


本 章 介绍 用 实体 -联系 (E-R) 模型 实现 概念 数据 建 模 。 章 名 强调 了 选择 实体 一 联系 模 
型 的 理由 : 那些 影响 数据 库 设 计 的 业务 规则 要 无 二 义 性 地 记录 下 来 。 多 个 小 节 详 细 地 解释 了 
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如 何 命 名 和 定义 数据 模型 的 元 素 ， 这 是 无 二 义 开 发 E-R 图 的 基本 要 求 。 本 章 中 的 例子 从 简 
单 到 复杂 ， 最 后 给 出 一 个 描述 Pine Valley 家 具 公 司 的 综合 E-R 图 。 


第 3 章 增强 型 E-R 模型 


本 章 讨 论 几 个 高 级 E-R 数据 模型 结构 。 特 别 地 ， 全 面 讨论 了 超 类 型 / 子 类 型 联系 ， 并 且 
给 出 了 一 个 描述 Pine Valley 家 具 公 司 的 扩展 E-R 数据 模型 的 完整 例子 。 


第 三 部 分 ”数据库 设计 


第 4 章 逻辑 数据 库 设 计 和 关系 模型 


本 草 描 述 将 概念 数据 模型 转换 成 关系 数据 模型 的 过 程 ， 讨 论 如 何 将 新 关系 合并 到 已 有 的 
规范 化 数据 库 中 ， 提 供 了 规范 化 的 概念 基础 和 实践 过 程 ， 并且 强 调 了 在 规范 化 中 使 用 函数 依 
赖 和 决定 因子 的 重要 性 。 本 章 还 讨论 了 外 键 ， 强 调 了 关系 数据 模型 的 基本 概念 ， 以 及 在 逻辑 
设计 过 程 中 数据 库 设计 者 的 任务 。 


第 5 章 物理 数据 库 设计 和 性 能 


本 章 描 述 完 成 一 个 有 效 的 数据 库 设计 的 基本 步骤 ,重点 放 在 数据 库 设计 和 实现 方面 ， 这 
些 都 是 现代 数据 库 环境 中 需要 数据 库 专 家 专门 控制 的 。 本 章 另 一 个 重点 是 改进 数据 库 性 能 ， 
特别 是 参照 Oracle 和 其 他 数据 库 管 理 系 统 (DBMS) 中 的 技术 改进 数据 库 处 理性 能 。 不 同 的 
索引 类 型 是 数据 库 技术 中 提高 查询 处 理 速 度 的 技术 。 


第 四 部 分 ”实现 


第 6 章 SQL 导论 


本 章 介 绍 在 大 多 数 DBMS 中 使 用 的 SQL (SQL:1999)， 同 时 还 介绍 最 新 版 SQL 
(SQL:2008 ) 中 的 一 些 变 动 。 本 章 和 下 一 章 都 是 有 关 SQL 的 内 容 。 本 章 包括 SQL 代码 举例 ， 
大 多 使 用 SQL:1999 和 SQL:2008 的 语法 ， 还 有 的 使 用 Oracle 11g 与 微软 SQL Server 的 语 
法 。MySQL 的 某 些 独 有 特征 和 动态 视图 在 此 也 有 介绍 。 本 章 介 绍 建立 和 维护 数据 库 的 SQL 
命令 与 单 表 查询 编程 。 另 外 ， 还 介绍 了 双 表 编程 、IS NULL/IS NOT NULL、 更 多 的 舱 入 隔 
数 、 导 出 表 以 及 聚集 函数 和 GROUP BY 子 句 。 本 章 仍 然 以 Pine Valley 家 具 公 司 为 例 来 解释 
各 种 查询 和 查询 结果 。 


第 7 章 高 级 SQL 


本 章 继续 介绍 SQL, 内容 包 括 多 表 查 询 、 事 务 完 整 性 、 数 据 字 典 、 触 发 器 和 存储 过 
程 (它们 之 间 的 区 别 有 清 晰 的 解释 )， 以 及 与 其 他 编程 语言 结合 的 租 入 式 SQL， 还 讨论 了 
OUTER JOIN 命令 。 本 章 使 用 标准 SQL。 本 章 介 绍 了 如 何在 导出 表 中 存储 查询 结果 ， 以 及 
如 何 使 用 CAST 命令 转换 不 同 数据 类 型 。 为 了 解释 什么 时 候 使 用 EXISTS (NOT EXISTS) 
和 IN (NOT IN)， 还 介绍 了 自 连 接 。 本 章 还 包括 SQL 中 最 复杂 和 功能 最 强 的 子 查询 和 相关 
子 查询 。 


第 8 章 数据 库 应 用 开发 


本 章 讨论 最 新 的 客户 端 /服务 器 体系 结构 与 应 用 、 中 间 件 以 及 在 当代 数据 库 环 境 中 的 数 
据 库 访问 等 概念 ， 介 绍 创建 二 层 和 三 层 应 用 的 通用 技术 。 本 章 给 出 了 一 些 应 用 实例 ， 说 明 如 
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何在 流行 的 编程 语言 (如 Java、VB.NET、ASPNET 和 JSP) 中 访问 数据 库 。 本 章 还 介绍 了 
可 扩展 标记 语言 (XML ) 以 及 相关 数据 存储 和 检索 技术 ， 内 容 包括 XML 模式 基础 、XQuery 
和 XSLT。 本 章 以 Web 服务 的 综述 、 相 关 标 准 和 技术 以 及 如 何 利用 它们 在 基于 Web 的 应 用 
中 无 颖 地 、 安 全 地 移动 数据 结束 。 本 章 还 简单 介绍 了 面向 服务 的 体系 结构 (SOA ) 。 


第 9 章 数据 仓库 


本 章 介 绍 数 据 仓库 的 基本 概念 ， 解 释 为 什么 数据 仓库 被 认为 是 很 多 组 织 保持 竞争 优势 的 
决定 性 技术 ， 以 及 为 实现 数据 仓库 所 需要 的 数据 库 设 计 步 又 和 结构 。 本 章 还 复习 了 决定 维 
模型 需求 的 最 佳 实 践 ， 介 绍 了 正在 兴起 的 列 式 数据 库 技 术 ， 这 些 都 是 专门 为 数据 仓库 应 用 而 
开发 的 技术 。 本 章 包 括 了 一 些 支 持 数 据 管理 的 重要 新 方法 ， 它 们 都 是 目前 的 热点 议题 ， 如 大 
数据 概念 以 及 与 此 相关 联 的 工具 和 技术 。 本 章 还 提供 了 一 些 使 用 SQL 和 称 作 微 策略 的 BI 工 
具 的 数据 集 市 实践 性 练习 。 这 些 都 可 以 从 Teradata 大 学 网 络 上 得 到 。 附 加 的 议题 有 可 选择 的 
数据 仓库 体系 结构 和 适 于 数据 仓库 的 维 数据 模型 (或 星 模式 )。 有 关 如 何 处 理 缓 变 维 数据 也 
有 深入 讨论 ， 并 定义 了 操作 数据 存储 、 独 立 性 、 相 关 性 、 逮 辑 数据 集 市 和 各 种 联机 分 析 处 理 
( OLAP) 格式 。 用 户 接口 包括 OLAP、 数 据 可 视 化 、 商 业 成 果 管 理 和 仪表 盘 ， 以 及 数据 挖掘 
等 。 数 据 质量 和 治理 也 在 本 章 有 介绍 。 


教学 法 


本 教材 包括 了 广泛 的 技术 资源 以 支持 各 种 教学 方法 。 各 章 都 独立 成 篇 ， 这 样 可 以 按 教师 
喜欢 的 方式 以 不 同 的 次 序 使 用 。 如 前 面 已 讨论 的 ， 某 些 教师 可 能 喜欢 在 课程 中 较 早 地 介绍 
SQL 和 可 以 动手 练习 的 数据 库 作 业 ， 而 不 是 按 本 书 的 章节 顺序 上 课 。 另 一 些 教师 可 能 喜欢 
在 课程 最 后 才 介 绍 物理 数据 库 设 计 和 数据 库 实 现 。 

每 章 中 都 包含 几 个 标准 特征 ， 以 支持 教 和 学 按 某 种 一 致 的 方式 使 用 。 

1 ) 学 习 目 标 放 在 每 一 章 的 开始 ， 预 先 列 出 了 该 章 中 学 习 者 将 要 掌握 的 主要 概念 和 技能 ， 
也 为 学 习 者 提供 了 很 好 的 有 助 于 其 准备 练习 和 考试 复习 的 综述 。 

2 ) 引言 和 总 结 部 分 给 出 了 每 一 章 的 主要 概念 ， 以 及 与 相关 章 的 连接 ， 为 学 生 提供 了 有 
关 课 程 的 概念 框 如 。 

3 ) 每 一 章 都 给 出 了 关键 术语 、 复 习题 、 问 题 与 练习 等 。 

。 关键 术语 为 学 生 检 查 对 重要 概念 、 基 本 事实 和 有 意义 议题 的 掌握 提供 方便 的 参考 。 

。 复 习题 ”覆盖 了 本 章 的 关键 内 容 ， 为 学 生 掌握 本 章 的 概念 提供 了 一 个 综合 工具 。 

。 问题 与 练习 难度 逐渐 增加 ， 方 便 教师 和 学 生 从 中 发 现 合 适 的 题目 。 重 点 关注 每 一 

章 中 涉及 技能 的 系统 开发 。 在 多 个 章节 里 ， 提 供 了 本 教材 使 用 的 大 量 数据 集 。 

。 Web 资源 每 一 章 都 提供 了 包含 本 章 补充 内 容 的 一 组 网 站 的 有 效 URL。 这 些 Web 网 
站 含有 在 线 发 表 文 档 、 提 供 商 、 电 子 文献 、 工 业 标 准 组 织 和 很 多 其 他 资源 。 利 用 这 
些 网 站 学 生 和 教师 可 以 找到 本 书 出 版 后 不 断 出 现 的 最 新 产品 信息 、 便 于 更 深入 学 习 
的 缘 景 资料 和 撰写 研究 论文 的 资源 。 

鼓励 教师 灵活 使 用 本 书 ， 以 适应 自己 的 课程 体系 和 学 生 职 业 需 求 。 本 书 模块 化 的 特点 、 
覆盖 内 容 广 泛 、 大 量 的 解释 以 及 对 高 级 议题 和 最 新 话题 的 涵盖 使 得 定制 很 方便 。 对 当前 文献 
和 网 站 的 很 多 引用 ， 能 帮助 教师 拓展 补充 的 阅读 列表 ， 或 扩展 超出 本 教材 内 容 的 课堂 讨论 。 


配套 网 站 (www.pearsonhighered.com/hoffer ) 。 
本 书 提供 一 个 可 用 的 综合 且 灵 活 的 技术 支持 工具 箱 以 增强 教学 和 学 习 体 验 。 
对 学 生 
下 面 是 为 学 生 提 供 的 在 线 资源 : 
e Web 资源 模块 包括 网 站 链接 ， 可 以 帮助 学 生 进一步 考察 数据 库 管理 的 内 容 。 
e 按 首 字母 缩写 排序 给 出 的 完整 术语 表 。 
@ 与 数据 集 相 关 的 网 站 链接 。 虽 然 我 们 提供 的 数据 集 的 格式 很 容易 在 大 学 的 计算 机 上 
或 学 生 上 自己 的 PC 上 闻 载 ， 但 教师 并 不 需要 负责 文 持 本 地 数据 集 。 应 用 服务 提供 者 
( 见 www.teradatauniversitynetwork.com) 提供 了 到 SQL 编码 环境 的 瘦 客 户 端 接口 。 
e 提供 配套 的 数据 库 。 建 立 了 两 个 版 本 的 Pine Valley 家 具 公 司 案例 。 第 一 个 版 本 是 为 
了 匹配 本 书 的 举例 。 第 二 个 版 本 具有 更 多 的 数据 和 表 以 及 样本 表单 、 报 告 和 Visual 
Basic 代码 块 。 可 是 ， 这 个 版 本 并 不 完整 ， 学 生 可 以 将 缺失 的 表 、 附 加 的 表单 、 报 告 
和 模块 补 齐 。 数 据 库 以 多 种 格式 (ASCII 表 、Oracle 脚本 以 及 微软 Access) 提供 ,但 
是 格式 在 这 两 个 版 本 中 有 变化 。 还 提供 了 某 些 数据 库 文档 。 两 个 版 本 的 PVFC 数据 
库 也 在 Teradata 大 学 网 络 中 心 给 出 。 
e@ 多 个 读者 开发 的 短视 频 。 这 些 视频 针对 书 中 不 同 章节 中 的 关键 概念 和 能 力 要 求 ， 有 
助 于 学 生 对 这 些 难 理解 内 容 的 学 习 。 这 些 视频 集成 了 练习 和 短 的 讲座 。 


对 教师 


下 面 是 为 教师 提供 的 在 线 资源 : 

e 教师 手册 逐 章 给 出 了 教学 目标 、 课 堂 思 路 和 对 复习 题 、 问 题 与 练习 的 解答 。 

e 测试 题库 和 测试 生成 (TestGen)， 包 括 一 组 多 选 题 、 判 断 题 和 简短 的 答案 ， 根 据 难 易 
程度 排列 ， 按 照 书 中 页 码 ( 指 英文 书页 码 ， 与 书 中 页 边 标注 的 页 码 一 致 ) 和 标题 引 
用 。 测 试题 库 按 Microsoft Word 格式 提供 ， 且 是 计算 机 化 的 测试 生成 。 测 试 生 成 是 
PC/Mac 兼容 的 ， 且 预 装 了 全 部 的 测试 题库 。 你 可 以 手工 或 随机 地 查看 测试 题 ， 然 后 
抽取 得 到 一 份 测验 。 你 也 可 以 根据 需要 增加 或 修改 测试 题库 的 题目 。 

PPT， 给 出 了 关键 术语 和 概念 。 教 师 可 以 通过 增加 或 编辑 定制 需要 的 PPT。 

影像 库 按 教材 的 章节 汇集 ， 包 插 所 有 的 图 片 、 表 格 、 截 屏 ， 能 够 用 来 增强 课堂 教学 
效果 和 完善 PPT。 
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第 一 部 分 包括 第 1 章 。 

第 1 章 给 出 了 贯穿 本 书 的 基本 数据 库 概念 和 定义 。 数 据 库 管 理 作为 一 个 活跃 的 、 
具有 挑战 性 的 和 正在 发 展 的 领域 ， 为 信息 学 院 学 生 创 造 了 巨大 的 就 业 机 会 。 数 据 库 已 
成 为 我 们 日 常生 活 的 必需 品 ， 并 且 是 商业 运作 的 更 重要 的 核心 。 数 据 库 可 以 是 仅仅 在 
个 人 数字 助理 (PDA) 和 智能 手机 中 存储 的 通信 信息 ， 也 可 以 是 支持 企业 级 信息 系统 
的 非常 大 的 数据 库 。 数 十 年 前 ， 数 据 库 就 已 成 为 数据 存储 的 中 心 点 。 近年 来 发 展 起 来 
的 客户 关系 管理 和 网 上 购物 是 两 个 数据 库 相 关 活 动 的 例子 。 数 据 仓库 的 发 展 为 管理 者 
更 深入 和 广泛 地 分 析 历 史 数 据 提 供 了 机 会 ， 而 且 它 还 将 持续 得 到 关注 。 

本 部 分 首先 定义 数据 、 数 据 库 、 元 数据 、 数 据 库 管 理 系统 (DBMS)、 数 据 仓 库 和 
其 他 有 关 的 术语 。 通 过 仔细 地 规划 数据 库 的 使 用 ， 我 们 将 数据 库 与 早期 的 文件 管理 系 
统 进行 对 比 ， 并 描述 其 几 个 重要 的 优点 。 

第 1 章 还 描述 了 数据 库 分 析 、 设 计 、 实 现 和 管理 所 遵循 的 一 般 步 骤 ， 用 示意 图 说 
明了 数据 库 开 发 过 程 如 何 融 进 整个 信息 系统 开发 过 程 中 。 然 后 ， 讨 论 了 数据 库 开 发 中 
的 结构 化 生命 周期 和 原型 方法 。 我 们 引入 企业 数据 建 模 ， 该 模型 设 定 了 组 织 数 据 库 的 
范围 和 一 般 内 容 。 这 一 步 常常 是 数据 库 开 发 中 的 第 一 步 。 本 章 介 绍 模式 以 及 三 级 模式 
体系 结构 的 概念 ， 这 是 现代 数据 库 系统 中 的 主要 方法 。 本 章 介 绍 数 据 库 环 境 的 主要 成 
分 和 应 用 类 型 以 及 两 层 、 多 层 和 企业 数据 库 。 企 业 数据 库 包含 用 于 支持 企业 资源 规划 
系统 和 数据 仓库 的 内 容 。 最 后 ， 讨 论 在 数据 库 开发 项 目 中 涉及 的 主要 人 员 的 职责 。 引 
入 Pine Valley 家 具 公 司 案 例 来 解释 数据 库 管理 的 原则 和 概念 ， 这 个 案例 将 贯穿 全 书 。 
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学 习 目 标 
学 完 本 章 后 ， 读 者 应 该 能 够 : 
eee 数据 库 ， 数 据 ， 信 息 ， 元 数据 ， 数 据 库 应 用 ， 数 据 模型 ， 
实体 ， 关 系数 据 库 ， 数 据 库 管理 系统 ( DBMS)， 数 据 独 立 ， 用 户 视图 ， 数 据 库 管理 ， 
数据 管理 约束， 计算 机 辅助 软件 工程 (CASE) 工具 ， 知 识 库 (repository)， 企 业 数 
据 建 模 ， 系 统 开 发 生命 周期 (SDLC)， 概 念 模式 ， 逻 辑 模 式 ， 物 理 模式 ， 原 型 方法 ， 
敏捷 软件 开发 ， 企 业 资 源 规划 (ERP)， 数 据 仓库 。 
给 出 传统 文件 处 理 系 统 的 几 个 局 限 性 。 
与 传统 文件 处 理 相 比 ， 列 举 10 个 使 用 数据 库 方 法 的 优点 。 
列 出 几 个 使 用 数据 库 方 法 的 代价 和 风险 。 
列举 并 简洁 地 描述 典型 数据 库 环境 的 9 个 组 成 成 分 。 
列举 出 4 类 使 用 数据 库 的 应 用 例子 ， 并 给 出 它们 的 关键 特征 。 

e 描述 系统 开发 项 目的 生命 周期 ,重点 在 数据 库 分 析 、 设 计 和 实现 活动 上 。 

e 解释 在 数据 库 和 应 用 开发 中 使 用 的 原型 系统 开发 方法 和 敏捷 开发 方法 。 

e 解释 在 数据 库 设 计 、 实 现 、 使 用 和 管理 中 人 员 的 职责 。 

e 解释 外 模式 、 概 念 模式 和 内 模式 之 间 的 差别 ， 并 说 明 数 据 库 三 级 模式 体系 结构 。 

引言 

在 过 去 的 20 年 里 ， 数 据 库 应 用 的 重要 性 和 数量 都 得 到 了 很 大 的 发 展 。 几 乎 在 任何 一 种 
类 型 的 组 织 中 数据 库 都 被 用 于 存储 、 操 作 和 检索 数据 。 这 些 组 织 包 括 商 业 、 医 疗 卫 生 、 教 
育 、 政 府 和 图 书馆 和 等。 数据 库 技术 持续 不 断 地 在 个 人 计算 机 上 的 单 用 户 、 网 络 服务 右上 的 群 
体 用 户 以 及 使 用 企业 级 分 布 应 用 的 雇员 中 被 使 用 。 数 据 库 还 被 客户 和 其 他 远程 用 户 通过 各 种 
技术 使 用 ， 例 如， 自助 取款 机 、 网 络 浏览 器 、 智 能 手机 以 及 智能 居家 和 办 公 环 境 。 大 多 数 基 
于 Web 的 应 用 都 依赖 于 数据 库 功 能 。 

紧 接 着 这 样 迅 速 发 展 的 时 期 之 后 ， 对 数据 库 和 数据 库 技术 是 否 就 没有 需求 了 呢 ? 当然 不 
是 ! 在 当今 激烈 竞争 的 环境 下 ， 数 据 库 技术 将 更 显 其 重要 性 。 管 理 者 寻求 使 用 从 数据 库 中 得 
到 的 知识 以 获取 竞争 优势 。 例 如 ,详细 的 销售 数据 库 能 被 挖掘 出 客户 购买 模式 用 于 广告 和 市 
场 竞争 。 企 业 将 称 作 “警示 ”的 过 程 钦 入 数据 库 中 ， 以 警示 一 些 不 寻常 的 条 件 。 例 如 不 足 的 
仓库 存储 量 或 销售 附加 产品 的 机 会 以 及 对 适合 行为 的 触发 处 理 。 

虽然 数据 库 的 将 来 已 经 确定 ,但 仍然 有 很 多 工作 要 做 。 很 多 组 织 具有 一 个 不 完全 合适 的 
数据 库 ， 这 些 数据 库 都 是 为 了 适应 当时 需求 ， 而 不 是 基于 规划 或 是 基于 良好 管理 进化 的 方式 
开发 。 大 量 数据 在 老 旧 、“ 遗 留 ” 的 系统 中 受 限 ， 而 且 这 些 数据 质量 很 差 。 

为 了 设计 和 管理 数据 仓库 和 整合 互联 网 应 用 ， 需 要 一 些 新 的 技能 ， 这 些 缺 失 的 技能 有 数 
据 库 分 析 、 数 据 库 设计 、 数 据 管理 以 及 数据 库 管 理 等 。 在 本 教材 中 ， 我 们 将 讨论 这 些 和 其 他 
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一 些 重要 的 问题 ， 以 使 读者 可 以 为 将 来 的 职业 需求 做 准备 。 

数据 库 管 理 课程 已 是 当今 信息 系统 专业 课程 体系 中 最 重要 的 课程 之 一 。 很 多 学 校 已 经 添 
加 了 数据 仓库 或 数据 库 管 理 选 修 课 ， 以 覆盖 这 个 领域 的 更 高 级 议题 。 作 为 信息 系统 专业 人 
员 ， 在 信息 系统 开发 工作 中 必须 要 考虑 分 析 数 据 库 需求 以 及 设计 和 实现 数据 库 。 你 还 需要 与 
终 疾 用 户 协 商讨 论 ， 并 且 向 他 们 展示 如 何在 决策 支持 系统 和 执行 信息 系统 展现 竞争 优势 中 使 
用 数据 库 (或 数据 仓库 )。 在 Web 站 点 上 广泛 应 用 数据 库 ， 这 些 网 站 给 用 户 返 回 动态 信息 ， 
需要 用 户 不 仅仅 能 理解 基于 Web 的 应 用 如 何 链接 数据 库 ， 而 且 需 要 知道 如 何 保护 这 些 数 据 
库 ， 使 得 这 些 数据 库 的 内 容 可 以 被 浏览 ， 但 不 能 暴露 给 外 部 用 户 。 

在 这 一 章 中 ， 我们 介绍 数据 库 和 数据 库 管理 系统 ( DBMS) 的 基本 概念 。 讨 论 传统 文件 
管理 系统 及 其 不 足 之 处 ， 从 而 导致 数据 库 方法 的 出 现 。 然 后 ， 还 要 讨论 使 用 数据 库 方法 的 
益处 、 代 价 以 及 风险 。 讨 论 在 数据 库 的 创建 、 使 用 和 管理 中 的 技术 ， 描 述 使 用 数据 库 的 类 
型 一 一 个 人 数据 库 、 二 层 、 三 层 以 及 企业 级 数据 库 ， 并 且 介 绍 过 去 50 年 中 数据 库 的 发 展 。 

因为 数据 库 是 信息 系统 的 一 部 分 ， 所 以 这 一 章 也 讨论 数据 库 开 发 过 程 如 何 适 应 整个 信息 
系统 开发 过 程 。 本 章 强调 数据 库 开 发 与 完整 的 信息 系统 开发 环境 中 的 所 有 其 他 活动 互相 合作 
的 需求 。 这 包括 强调 假想 的 Pine Valley 家 具 公 司 数据 库 开 发 过 程 。 通 过 这 个 实例 ， 本 章 介绍 
在 PC 上 开发 数据 库 的 工具 以 及 为 独立 应 用 从 企业 数据 库 中 抽取 数据 的 过 程 。 

有 几 个 理由 决定 在 此 讨论 数据 库 开 发 。 首 先 ， 虽 然 读 者 可 能 已 经 使 用 过 数据 库 管 理 系统 
的 基本 功能 ， 例 如 微软 的 Access， 但 你 可 能 还 没有 了 解 这 些 数据 库 是 如 何 开发 的 。 利 用 简 
单 的 例子 ， 本 章 简 洁 地 解释 你 在 完成 了 本 教材 的 数据 库 课程 之 后 能 学 会 什么 。 因 此 ， 本 章 帮 
助 你 对 后 续 章 节 中 涉及 的 议题 建立 一 个 框架 。 

其 次 ， 很 多 学 生 能 从 充满 具体 例子 的 教材 中 获得 更 好 的 学 习 。 显 然 在 本 教材 的 所 有 章节 
中 都 含有 很 多 例子 、 图 示 以 及 实际 的 数据 库 设 计 与 编码 。 每 一 章 都 重点 讨论 数据 库 管 理 的 某 
个 特定 问题 。 本 章 用 来 帮助 读者 用 最 少 的 技术 细节 理解 这 些 数 据 库 管 理 的 各 个 方面 是 如 何 关 
联 在 一 起 的 ， 并 且 理 解数 据 库 开发 任务 和 技能 与 其 他 信息 系统 课程 是 如 何 相关 联 的 。 

最 后 ， 很 多 讲授 者 希望 读者 在 数据 库 课程 的 早期 就 启动 数据 库 开发 的 最 初步 骤 。 本 章 给 
出 了 一 点 建议 ， 即 如 何 构建 一 个 数据 库 开 发 项 目 满 足 课程 练习 的 拓展 。 显 然 ， 这 只 是 第 一 
草 ， 使 用 的 很 多 例子 和 标记 比 实际 项 目 、 其 他 的 课程 作业 以 及 真实 的 组 织 需 求 都 要 简单 。 

一 点 提醒 是 ， 在 本 章 中 你 并 不 能 学 到 如 何 设计 或 开发 数据 库 。 我 们 必须 保持 本 章 内 容 仅 
仅 是 引言 和 简介 ， 本 章 中 用 到 的 一 些 标记 与 其 他 章节 中 的 不 一 样 。 本 章 的 目的 是 给 读者 关于 
能 力 的 关键 步骤 和 类 型 有 一 个 一 般 性 的 理解 ， 但 读者 也 会 学 习 到 基本 概念 与 定义 ， 并 获得 一 
个 直观 的 动力 去 学 习 后 面 章节 中 展现 的 能 力 和 知识 。 


1.1 基本 概念 和 定义 


我 们 定义 数据 库 〈 database) 是 一 个 组 织 起 来 的 逻辑 相关 的 数据 的 集合 。 这 个 定义 字 不 
多 ， 但 是 请 注意 看 看 本 书 的 页 数 。 因 此 ， 对 该 定义 仍 有 很 多 事情 需要 补充 完成 。 

数据 库 可 大 可 小 ， 也 可 以 复杂 和 简单 。 例 如 ， 一 个 销售 员 可 以 在 其 笔记 本 电脑 上 维护 一 
个 很 小 的 客户 合同 数据 库 一 一 仅仅 只 含有 几 浪 字 节 的 数据 。 而 一 个 大 的 公司 可 以 在 一 个 大 型 
主机 上 建立 一 个 大 型 数据 库 ， 含 有 几 TB 的 数据 ( 1TB 等 于 一 万 亿 字 节 )， 该 数据 库 用 于 决 
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策 支 持 应 用 ( Winter，1997 )。 大 型 数据 仓库 可 以 包含 PB 级 的 数据 ( 1PB 是 千 的 $ 次 方 字 
节 )。( 我 们 假定 ， 本 教材 的 数据 库 都 是 计算 机 化 的 数据 库 。) 


1.1.1 数据 


历史 上 ， 术 语 数 据 ( data) 是 指 可 以 记录 和 存储 在 计算 机 介质 上 的 关于 对 象 和 事件 的 事 
实 。 例 如 ， 在 销售 员 的 数据 库 中 ， 数 据 将 包括 客户 的 名 字 、 地 址 及 电话 号 码 等 事实 。 这 种 数 
据 类 型 被 称 为 结构 化 数据 (structured data)。 最 重要 的 结构 化 数据 类 型 是 数值 型 、 字 符 型 和 
日 期 型 。 结 构 化 数据 以 表格 形式 存储 ( 表 、 关 系 、 数 组 、 电 子 表格 等 )， 这 些 在 传统 的 数据 
库 和 数据 仓库 中 很 普遍 。 

有 关 传 统 的 数据 的 定义 现在 需要 扩展 以 反映 新 的 现实 。 当 今 的 数据 库 除 了 存储 结构 化 数 
据 外 ， 还 被 用 于 存储 对 象 ， 如 文档 、 电 子 邮件 、 地 图 、 照 片 、 图 像 、 声 音 和 视频 等 。 例 如 ， 
销售 人 员 的 个 人 数据 库 中 可 以 包含 客户 合同 的 照片 ， 它 也 可 以 包含 最 新 产品 的 声音 记录 和 视 
频 片 段 。 这 种 类 型 的 数据 被 称 作 是 非 结构 化 (unstructured) 数据 ， 或 者 是 称 作 多 媒体 数据 。 
当今 结构 化 和 非 结 构 化 数据 经 常 被 组 合 存储 在 同一 个 数据 库 中 ， 以 创建 一 个 真实 的 多 媒体 环 
境 。 例 如 ， 汽 车 修理 店 的 结构 化 数据 (有 关 客 户 和 汽车 的 描述 ) 与 多 媒体 数据 (汽车 损毁 的 
照片 和 保险 文件 的 扫描 图 像 )。 

包括 结构 化 和 非 结 构 化 类 型 的 数据 的 扩展 定义 是 “在 用 户 环 境 中 具有 意义 和 重要 性 的 对 
象 和 事件 的 存储 表示 ”。 


1.1.2 ”数据 与 信息 


术语 数据 (data) 和 信息 (information) 密切 相关 ， 而 且 事 实 上 它们 也 和 常常 被 互 换 使 用 。 
可 是 ， 区 别 它 们 之 间 的 不 同 很 有 意义 。 这 里 定义 信息 是 这 样 一 类 数据 : 它们 是 人 们 按照 知识 
的 方式 处 理 后 得 到 的 数据 。 例 如 ， 考 虑 如 下 一 组 事实 : 


Baker,kenneth D. 324917628 
Doyle,Joan E. 496193248 
Finkle,Clive R. 548429344 
Lewis,John C. 551742186 
McFerrn,Debra R. 409723145 


这 些 事实 满足 数据 的 定义 ， 但 大 多 数 人 同意 这 个 数据 以 现在 的 格式 是 无 意义 的 。 即 使 我 
们 猜测 这 是 一 个 有 关 人 名 和 他 们 的 社保 号 码 对 的 列表 ， 但 是 因为 不 知道 这 些 条 目的 实际 意义 
这 些 数 据 仍 然 是 没有 用 处 。 但 如 果 将 这 些 数 据 按 图 1-1a 方式 给 出 时 ， 其 意义 就 不 同 了 。 

通过 附加 不 多 的 数据 项 和 提供 一 个 结构 ， 就 可 以 认识 到 这 是 一 类 特殊 的 课程 。 对 于 某 些 
用 户 来 说 这 是 一 些 有 用 的 信息 ， 例 如 课程 的 老师 和 注册 的 办 公 室 。 当 然 ， 一 般 来 说 ， 出 于 对 
较 强 的 数据 安全 性 的 重要 性 认识 的 增加 ， 现 在 很 少 有 组 织 仍然 使 用 社保 号 码 作为 标识 ， 大 多 
数组 织 都 是 使 用 内 部 生成 的 号 码 来 标识 。 

另外 一 种 将 数据 转换 为 信息 的 方法 是 对 数据 进行 汇总 ， 或 加 以 处 理 将 其 按 人 们 理解 的 方 
式 呈 现 。 例 如 ， 图 1-1b 将 学 生 注册 数据 汇总 ， 并 以 图 形 化 的 数据 呈现 。 这 个 数据 将 被 作为 
学 校 决定 是 否 增加 新 课程 或 雇佣 新 的 教员 的 依据 。 
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课程 表 
课程 : MGT 500 学 期 : 2010 年 春季 学 期 
Business Policy 
学 时 : 2 
名 字 ID 


Baker, Kenneth D. 324917628 
Doyle, Joan E. 476193248 
Finkle, Clive R. 548429344 
Lewis, John C. 551742186 
McFerran, Debra R. 409723145 
Sisneros, Michael 392416582 





a) 数据 上 下 文 





2005 2006 2007 2008 2009 2010 
专业 注册 百分比 (2010) 年 度 注册 推测 
b) 汇总 数据 
图 1-1 转换 数据 到 信息 


实际 中 ， 根 据 我 们 的 定义 ,现今 的 数据 库 可 以 包含 数据 或 信息 ,或 者 二 者 都 有 。 例 如 ， 
数据 库 可 以 含有 如 图 1-1a 中 那样 的 有 关 课 程 的 图 片 ， 同 时 ， 数 据 又 可 以 被 预 处 理 成 汇总 形 
式 存储 ， 以 用 于 决策 支持 。 在 本 教材 中 ， 如 果 没 有 特别 的 说 明 ， 那 么 数据 库 中 既 可 以 是 数据 
也 可 以 是 信息 。 


1.1.3 元 数据 


如 前 所 述 ， 数 据 之 所 以 有 用 ， 是 因 其 附加 有 上 下 文 。 为 数据 提供 上 下 文 的 方法 是 用 元 数 
据 。 元 数据 ( metadata) 是 用 于 描述 终端 用 户 数据 的 特征 或 性 质 以 及 该 数据 的 内 容 。 典 型 的 
描述 数据 特征 的 是 数据 名 称 、 定 义 、 长 度 (或 大 小 ) 和 可 以 有 的 值 。 元 数据 描述 数据 上 下 文 
的 是 数据 的 来 源 、 数 据 的 存储 位 置 、 数 据 的 拥有 者 以 及 使 用 方式 。 尽 管 它 看 起 来 是 间接 的 数 
据 ， 但 很 多 人 将 元 数据 认为 是 “数据 的 数据 ”。 

图 1-1 中 课程 表 的 一 些 元 数据 例子 在 表 1-1 中 给 出 。 对 于 在 课程 表 中 出 现 的 每 个 数据 ， 
元 数据 给 出 了 数据 项 的 名 称 、 数 据 类 型 、 长 度 、 人 允许 出 现 的 最 小 和 最 大 值 、 每 个 数据 项 的 简 
洁 描 述 以 及 数据 来 源 (有 时 也 称 作 记录 系统 )。 注 意 数据 与 元 数据 之 间 的 区 别 。 元 数据 是 从 
数据 中 得 出 的 数据 。 也 就 是 说 ， 元 数据 描述 数据 的 性 质 ， 但 是 与 数据 独立 。 这 样 ， 表 1-1 中 
的 元 数据 不 包含 任何 图 1-1a 中 课程 表 中 的 样本 数据 。 元 数据 可 以 使 数据 库 设 计 者 和 用 户 理 
解 存在 哪些 数据 、 数 据 的 意义 以 及 如 何 区 分 那些 初 看 起 来 很 类 似 的 数据 项 之 间 的 不 同 。 元 
数据 管理 至 少 应 该 与 其 相关 联 的 数据 管理 一 样 重要 ， 因 为 数据 如 果 没 有 清晰 的 意义 将 是 模糊 


3 
? 
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的 、 被 误解 的 或 是 错误 的 。 典 型 情况 是 ， 很 多 元 数据 都 是 作为 数据 库 的 一 部 分 ， 且 可 以 用 与 
检索 数据 或 信息 一 样 的 方式 来 检索 元 数据 。 


表 1-1 课程 表 的 元 数据 举例 


数据 项 元 数据 
5 大 来 


数据 可 以 存储 在 文件 或 数据 库 中 。 在 下 面 的 小 节 中 ， 将 展示 从 文件 处 理 系统 到 数据 库 系 
统 的 过 程 以 及 它们 各 目的 优 缺 点 。 


1.2 传统 文件 处 理 系统 


当 计 算 机 化 的 数据 处 理 来 源 首次 可 用 时 ， 还 没有 数据 库 。 为 了 商业 应 用 可 以 使 用 ， 计 算 
机 必须 要 人 存储、 操作 和 检索 大 型 数据 文件 。 计 算 机 文件 处 理 系 统 就 是 为 此 而 诞生 。 图 1-2 给 
出 了 一 个 在 Pine Valley 家 具 公 司 使 用 的 文件 处 理 系 统 中 的 三 个 计算 机 应 用 的 例子 。 它 是 订 
购 (Order Filling)、 进 销 存 (Invoicing) 以 及 工资 管理 (Payroll) 系统 。 图 中 也 给 出 了 每 个 应 
用 所 关联 的 主要 数据 文件 。 

文件 是 相关 记录 的 集合 。 例 如 ， 图 1-2 给 出 了 有 三 个 文件 的 订单 系统 ， 它 们 是 : 客户 主 
文件 ( Custom Master)， 库 存 主 文件 (Inventory Master)， 后 台 ” 表 1-2 文件 处 理 系统 的 缺点 


订单 文件 ( Back Order)。 注 意 ， 这 三 个 应 用 中 的 文件 有 宛 余 出 一 及 序数 所 相关 

现 ， 这 也 是 文件 处 理 系统 的 典型 特征 。 数据 元 余 
当 商 业 应 用 变 得 更 加 复杂 时 ， 传 统 的 文件 处 理 系统 的 缺点 有 限 的 数据 共享 

和 局 限 性 就 显现 出 来 (下 面 详细 描述 )。 结 果 是 ， 如 今 这 些 文件 元 长 的 开发 周期 

处 理 系统 都 被 数据 库 处 理 系统 所 代替 。 毫 无 疑问 ， 读者 应 该 7 一 一 一 一 一 


解 一 些 文件 处 理 系 统 的 缺点 。 因 为 ， 对 于 文件 处 理 系统 固有 的 问题 和 局 限 的 理解 将 有 助 于 在 
设计 数据 库 系 统 时 去 避免 它们 。 


文件 处 理 系统 的 缺点 


与 传统 文件 处 理 系 统 相 关联 的 几 个 缺点 被 列举 在 表 1-2 中 ， 并 且 在 下 面 将 简洁 地 对 其 加 
以 解释 。 

1. 程序 -数据 相关 

文件 描述 被 存储 在 每 个 访问 该 文件 的 数据 库 应 用 ( database application) 程序 中 。 例 如 ， 
在 图 1-2 的 Invoicing 系统 中 ， 程 序 A 访问 库存 定价 文件 (Inventory Pricing File) 和 客户 主 
文件 (Customer Master File)。 因 为 程序 中 含有 关于 这 些 文件 的 详细 描述 ， 所 以 对 于 文件 结 
构 的 任何 改变 ， 所 有 访问 这 些 文件 的 程序 都 需要 相应 地 修改 对 这 些 文件 的 描述 。 
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订购 部 门 

[一 二 | 

工资 管理 系统 

| + _ | 
主 文件 





图 1-2 Pine Valley 家 具 公 司 中 老 的 文件 处 理 系 统 

2. 数据 元 余 

在 文件 处 理 系统 中 应 用 向 篆 是 互相 独立 地 开发 ， 因 此 无 计划 的 元 余数 据 文 件 稍 常 会 出 现 
而 不 是 例外 情况 。 例 如 ， 在 图 1-2 中 ， 订 购 系统 含有 一 个 库存 主 文件 ， 进 销 存 系统 中 含有 一 
个 库存 定价 文件 。 这 些 文 件 中 都 含有 描述 Pine Valley 家 具 公 司 产品 的 描述 数据 ， 如 产品 描 
述 、 单 价 以 及 库存 量 。 而 这 些 见 余 是 浪费 的 ， 因 为 既 需 要 有 更 多 的 存储 空间 ， 同 时 还 要 增加 
保持 这 些 数据 更 新 的 代价 。 

3. 有 限 的 数据 共享 

在 传统 文件 处 理 方法 中 ， 每 个 应 用 都 有 其 私有 文件 ， 用 户 几 乎 不 能 共享 其 应 用 之 外 的 数 
据 。 注 意 在 图 1-2 中 ， 例 如 会 计 部 门 的 用 户 需 要 访问 进 销 存 系统 和 它 的 文件 ， 但 是 他 们 不 能 
访问 订购 系统 或 工资 管理 系统 以 及 它们 的 文件 。 

4. 见长 的 开发 周期 

使 用 传统 的 文件 处 理 系统 ， 每 个 新 的 应 用 都 需要 开发 者 从 最 基础 做 起 ， 包 括 设 计 新 的 文件 
格式 并 描述 它们 ， 然 后 对 每 个 新 的 程序 编写 访问 这 些 文件 的 存 取 人 逻辑 。 这 样 长 的 开发 周期 与 当 
今 快捷 的 商业 环境 不 匹配 ， 这 里 时 间 周 期 对 于 市 场 (或 信息 系统 的 生产 ) 都 是 成 功 的 关键 因素 。 

5. 过 多 的 程序 维护 

所 有 上 述 因 素 合 起 来 对 于 依赖 于 传统 的 文件 处 理 系统 的 组 织 都 构成 了 沉重 的 程序 维护 负 
担 。 事 实 上 ， 在 这 样 的 组 织 中 ,信息 系统 开发 成 本 的 80% 都 被 用 于 程序 维护 。 这 也 就 意味 
着 ,组 织 的 资源 (时 间 、 人 员 及 资金 等 ) 都 没有 用 于 开发 新 的 应 用 。 

克服 上 述 问 题 的 一 种 途径 就 是 使 用 数据 库 方法 ， 如 下 面 将 要 叙述 的 ， 该 方法 是 通过 提供 
一 组 定义 、 创 建 、 维 护 和 使 用 这 些 数据 的 技术 来 管理 组 织 数据 。 


1.3 ”数据库 方法 


如 何 克 服 文件 处 理 的 缺陷 呢 ? 我 们 并 不 是 调用 魔法 ， 但 我 们 做 得 更 好 : 我 们 遵循 数据 库 
方法 。 首 先 定义 一 些 对 于 理解 用 数据 库 方法 来 管理 数据 的 最 基本 的 核心 概念 ， 然 后 青 描 述 数 
据 库 方法 如 何 克 服 文件 处 理 方法 的 问题 。 


1.3.1 数据 模型 


合适 地 定义 数据 库 是 建立 数据 库 并 令 该 数据 库 能 适应 用 户 需 求 的 基础 。 数 据 模型 《data 
model) 抓 住 了 数据 之 间 关 联 的 本 质 ， 并 且 应 用 在 数据 库 概念 化 和 设计 的 不 同 抽象 层次 中 。 
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数据 库 的 效益 直接 与 数据 库 的 结构 相关 。 承 载 着 数据 库 结 构 的 不 同 图 形 化 系统 可 以 用 于 产生 
数据 模型 ， 而 这 些 图 形 化 系统 可 以 被 终端 用 户 、 系 统 分 析 员 和 数据 库 设 计 者 理解 。 第 2 章 和 
第 3 章 都 是 有 关 数 据 建 模 的 讨论 。 和 典型 的 数据 模型 由 实体 、 属 性 和 联系 组 成 ， 最 常用 的 数据 
建 模 方式 是 实体 -联系 模型 。 下 面 首先 对 此 有 一 个 简洁 的 描述 ， 第 2 章 和 第 3 章 将 对 此 做 更 
深入 的 讨论 。 

1. 实体 

客户 和 订单 是 商业 维护 信息 的 对 象 。 它 们 被 看 成 是 “实体 ”， 实 体 (entity) 类 似 于 名 词 ， 
它 描述 了 商业 环境 中 一 个 人 、 一 个 地 点 、 一 个 对 象 、 一 个 文件 或 一 个 概念 ， 这 些 信息 是 商业 
活动 中 必须 被 记录 和 维持 的 。 在 图 1-3a 中 CUSTOMER 和 ORDER 是 实体 。 刻 画 实 体 的 数 
据 (如 Customer Name) 被 称 作 属性 (attribute )。 有 很 多 客户 数据 被 记录 ， 而 每 一 个 客户 的 
信息 被 看 成 是 CUSTOMER 的 一 个 实例 (instance ) 。 

2. 联系 

数据 库 建立 组 织 数 据 中 存在 的 实体 之 间 的 联系 (relationship )， 这 样 可 以 检索 到 期 望 的 
信息 。 大 多 数 联 系 是 1 对 多 (1:M) 或 多 对 多 (M:V)。 一 个 客户 可 以 与 一 个 公司 有 多 个 订 
单 (Place 联系 )。 可 是 ， 每 个 订单 通常 只 能 与 一 个 具体 的 客户 关联 (Is Placed By 联系 )。 图 
1-3a 描述 了 这 种 客户 可 以 订购 1 个 或 多 个 订单 的 1:M 联系 ，1:M 联系 的 特征 是 通过 标记 为 
ORDER 的 矩形 (实体 ) 上 的 连 线 末端 的 多 线条 标示 。 该 联系 在 图 1-3a 和 图 1-3b 中 是 相同 
的 。 可 是 ,订单 与 产品 之 间 的 联系 是 M:N。 即 一 张 订单 可 以 含有 一 个 或 多 个 产品 ， 而 一 种 产 
品 可 以 被 包含 在 一 个 或 多 个 订单 中 。 值 得 说 明 的 是 ， 图 1-3a 是 企业 级 的 模型 ， 它 仅仅 包含 
了 了 客户、 订单、 产品 之 间 的 高 层 联 系 。 工 程 级 的 图 显示 在 图 1-3b 中 ， 它 包含 了 附加 的 细节 ， 
如 订单 的 进一步 细节 。 


CUSTOMER 


Places 


CUSTOMER PRODUCT 
Customer ID Product ID 
Customer Name Standard Price 







/I\ls Placed By 


/|\Is Placed By 


ORDER 
Order ID ORDER LINE 
Customer ID ls Contained ii Quantity 
Order Date 


/I\ ls Contained In 


PRODUCT 


a) 企业 级 数据 模型 片段 b) 工程 级 数据 模型 片段 
图 1-3 企业 和 工程 级 数据 模型 比较 





1.3.2 关系 数据 库 


关系 数据 库 ( Relational Database) 是 通过 在 文件 ( 称 作 关系 ) 中 的 公共 字段 建立 实体 之 
间 的 联系 。 图 1-3 中 客户 和 客户 订单 之 间 的 联系 是 通过 在 客户 订单 中 包含 客户 号 码 来 实现 
的 。 这 样 ， 客 户 的 标识 号 码 被 包含 在 含有 客户 信息 的 文件 (或 关系 中 )， 其 客户 信息 有 姓名 、 
地 址 等 。 每 次 客户 产生 一 个 订单 ， 该 客户 的 标识 也 被 包含 在 含有 订单 信息 的 关系 中 。 关 系数 
据 库 通过 标识 号 码 建立 客户 和 订单 之 间 的 联系 。 
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1.3.3 ”数据库 管理 系统 


数据 库 管 理 系 统 ( Database Management System，DBMS) 是 一 个 软件 系统 ， 它 使 数据 
库 方法 可 以 被 应 用 。DBMS 的 主要 目的 是 提供 一 个 创建 、 更 新 、 存 储 和 检索 存储 在 数据 库 中 
的 数据 的 系统 性 方法 。 它 使 用 户 和 应 用 程序 员 共 享 数据 ， 并 使 数据 在 多 个 应 用 之 间 被 共享 ， 
而 不 是 为 每 个 新 的 应 用 重复 存储 为 新 的 数据 文件 ( Mullins，2002 )。DBMS 也 提供 一 种 控制 
数据 访问 的 能 力 、 强 制 数据 完整 性 、 管 理 并 发 控制 和 恢复 数据 库 。 

既然 我 们 对 数据 库 方 法 的 基本 要 素 有 了 一 些 了 解 ， 那 么 再 来 看 看 数据 库 方 法 与 基于 文件 
的 方法 之 间 的 差别 。 比 较 图 1-2 和 图 1-4。 图 1-4 中 描述 了 数据 如 何在 数据 库 中 存储 (实体 )。 
与 图 1-2 不 同 ,图 1-4 中 CUSTOMER 信息 只 是 在 一 个 地 方 存 储 ， 而 不 是 有 两 个 客户 主 文件 
(Customer Master File)。 订 购 系统 ( Order Filling System) 和 进 销 存 系统 ( Invoicing System ) 
都 是 对 这 单个 CUSTOMER 实体 中 数据 的 访问 。 进 一 步 说 ， 存 储 哪 些 CUSTOMER 信息 、 如 
何 存储 以 及 如 何 访问 都 不 是 紧密 地 与 这 两 个 系统 绑 定 。 所 有 这 些 使 得 下 一 节 列 出 的 那些 优点 
可 以 实现 。 当 然 ， 要 指出 的 是 ,在 实际 数据 库 中 含有 数 千 个 实体 和 实体 间 的 联系 。 
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图 1-4 ”对 应 于 图 1-3 的 企业 级 数据 模型 


1.3.4 ”数据 库 方法 的 优点 
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DBMS 提供 的 数据 库 方法 的 主要 优点 总 结 在 表 1-3 中 ， 并 描述 如 下 。 


1. 程序 -数据 独立 表 1-3 ”数据 库 方法 的 优点 
将 数据 描述 (元 数据 ) 与 使 用 该 数据 的 应 用 程序 分 离 称 作 数 ”程序 -数据 独立 
据 独 立 ( data independence)。 利 用 数据 库 方 法 ， 数 据 描述 集中 存 。 计划 的 数据 元 余 
储 在 知识 库 (repository) 中 。 数 据 库 系统 的 这 个 特征 使 该 组 织 的 改进 的 数 锋 一 下 性 
数据 的 修改 和 演化 (在 一 定 范围 内 ) 不 用 修改 处 理 这 些 数据 的 应 ”改过 的 区 种 > 
en 增强 的 应 用 开发 能 力 
用 程序 。 强化 标准 
2. 计划 的 数据 见 余 改进 的 数据 质量 


好 的 数据 库 设 计 企 图 将 以 前 单独 的 (元 余 的 ) 数据 文件 整合 
成 一 个 单独 的 逻辑 结构 。 理 想 情 况 下 ,一 个 基本 事实 仅仅 只 在 数 
据 库 中 存放 一 次 。 例如， 产品 的 事实 ， 如 Pine Valley 松本 计算 机 


改进 的 数据 访问 和 响应 能 力 


减少 程序 维护 
改进 的 决策 支持 
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柜 ， 它 的 完成 时 间 、 价 格 等 只 在 Product 表 中 记录 ， 该 表 包 含 了 Pine Valley 的 每 一 个 产品 数 
据 。 数 据 库 方法 并 不 完全 清除 元 余 ， 而 是 允许 设计 者 控制 元 余 的 类 型 和 数量 。 在 后 面 的 章节 
中 ， 将 讨论 通过 包含 有 限 的 元 余 来 提高 数据 库 性 能 的 方法 。 

3. 改进 的 数据 一 致 性 

通过 清除 和 控制 数据 元 余 ， 可 以 极 大 地 减少 数据 不 一 致 的 机 会 。 例 如 ， 客 户 的 住址 只 在 
一 个 地 方 存储 ， 这 就 不 会 产生 客户 住址 不 同 的 问题 。 当 客户 住址 改变 时 ， 由 于 只 在 一 个 地 方 
人 存储， 这 样 住址 的 修改 就 很 容易 。 另 外 ， 还 带 来 了 节省 数据 存储 空间 的 好 处 。 

4. 改进 的 数据 共享 

数据 库 被 设计 为 一 个 共享 的 合作 资源 。 授 权 的 内 部 和 外 部 用 户 被 允许 使 用 数据 库 ， 每 个 
用 户 (或 用 户 组 ) 通过 一 个 或 多 个 数据 库 用 户 视 图 的 方式 使 用 数据 库 。 用 户 视 图 (user view ) 
是 数据 库 某 个 部 分 的 逻辑 描述 ， 这 部 分 数据 是 用 户 为 完成 某 个 任务 所 需要 的 。 用 户 视图 常常 
是 在 一 般 基础 上 开发 出 的 用 户 需 要 的 表格 或 报告 。 例 如 ， 工 作 在 人 力 资源 部 的 职员 需要 访问 
数据 库 以 确认 职员 数据 ; 客户 需要 访问 Pine Valley 的 网 站 上 提供 的 有 效 产 品目 录 。 这 里 人 力 
资源 职员 和 客户 访问 同一 个 数据 库 的 完全 不 同 的 两 部 分 数据 。 

5. 增强 的 应 用 开发 能 力 

数据 库 方法 的 主要 优点 是 可 以 极 大 减少 新 的 企业 应 用 开发 的 代价 和 时 间 。 数 据 库 应 用 开 
发 快 于 传统 文件 应 用 的 三 点 理由 如 下 : 

1 ) 假定 数据 库 和 相关 数据 的 获取 与 维护 应 用 已 经 被 设计 和 实现 ， 应 用 开发 人 员 就 可 以 
集中 精力 在 新 应 用 的 特殊 功能 上 ， 而 不 需要 考虑 文件 设计 和 底层 的 实现 细节 。 

2 ) 数据 库 管 理 系 统 提供 了 多 个 高 层 工具 ， 如 表格 和 报表 生成 器 ， 能 够 自动 完成 数据 库 
设计 与 实现 的 高 级 语言 。 在 后 面 的 章节 中 将 给 出 多 个 这 样 工 具 的 描述 。 

3 ) 估计 高 于 原来 60% ( Long，2005 ) 的 应 用 开发 生产 力 的 显著 提高 ， 最 近 已 经 通过 利 
用 基于 标准 Internet 协议 和 广泛 接受 的 数据 格式 (XML ) 的 Web 服务 被 实现 。Web 服务 和 
XML 将 在 第 8 章 中 介绍 。 

6. 强化 标准 

当 数 据 库 方法 在 管理 的 完全 支持 下 实现 时 ， 数 据 库 管理 ( database administration ) 功能 
将 被 授权 以 统一 的 权威 和 责任 来 建立 和 强化 数据 标准 。 这 些 标准 包括 命名 惯例 、 数 据 质 量 标 
准 以 及 用 统一 过 程 对 数据 进行 访问 、 更 新 和 保护 。 数 据 库 给 数据 库 管理 员 提 供 一 套 强大 工具 
来 开发 和 强化 这 些 标准 。 不 幸 的 是 ， 强 大 的 数据 库 管 理 功能 实现 的 失败 也 许 是 组 织 中 数据 库 
失败 的 最 主要 来 源 。 同 样 重要 的 是 数据 管理 ( data administration ) 是 对 组 织 中 所 有 数据 资源 
的 整体 管理 负责 的 高 层 功 能 ， 包 括 全 面 的 数据 定义 和 标准 化 。 

7. 改进 的 数据 质量 

当今 的 策略 规划 和 数据 库 管 理 时 代 ， 关 心 数据 质量 是 共同 的 主题 。 事 实 上 ， 数 据 仓库 研 
究 所 ( Data Wharehousing Institute，TDWI) 最 新 报道 ， 每 年 U.S 商业 用 于 数据 质量 问题 的 代价 
是 600 亿美 元 (http://tdwi.org/research/2002/02/tdwis-data-quality-report.aspx2sc_lang=en)。 数 据 
库 方法 给 出 了 多 个 工具 和 人 处理 来 改进 数据 质量 。 最 重要 的 是 如 下 两 点 : 

1 ) 数据 库 设计 者 可 以 说 明 完 整 性 约束 ， 该 约束 被 DBMS 强制 。 完 整 性 约束 (constraint ) 
是 一 组 数据 库 用 户 不 可 侵犯 的 规则 。 在 第 2 章 和 第 3 章 中 将 给 出 多 种 类 型 的 完整 性 约束 (也 
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称 作 “商业 规则 ”)。 如 果 客 户 给 出 一 个 订单 ， 约 东 将 保证 客户 和 订单 间 的 “联系 完整 性 约 
束 ”， 该 约束 将 防止 存 人 的 订单 是 没有 人 订购 的 订单 。 

2 ) 数据 仓库 环境 的 目标 是 在 将 数据 放 人 数据 仓库 之 前 清洗 (或 说 是 “ scrub”) 操作 数 
据 (Jordan，1996 )。 你 是 否 接受 了 多 份 目录 ? 如 果 数 据 被 清洗 了 ， 那 么 公司 给 你 邮寄 的 三 
份 目 录 就 可 以 被 阻止 ， 从 而 节约 邮费 ， 如 果 能 更 精确 地 计数 已 存在 的 客户 ， 那 么 公司 也 可 以 
增强 其 对 客户 的 理解 。 第 9 章 中 将 讨论 数据 仓库 。 

8. 改进 的 数据 访问 和 响应 能 力 

使 用 关系 数据 库 ， 一 个 没有 编程 经 验 的 终端 用 户 也 能 常常 检索 和 显示 数据 ， 即 使 他 们 跨 
越 了 传统 的 部 门 界 限 。 例 如 ， 职 工 可 以 用 如 下 查询 显示 有 关 Pine Valley 家 具 公司 的 计算 机 桌 
的 信息 : 


SELECT * 
FROM Product T 
WHERE ProductDescription =“Computer Desk”; 


该 查询 使 用 了 结构 化 查询 语言 (或 称 SQL， 第 6 章 和 第 7 章 中 将 要 学 习 该 语言 )。 虽 然 
该 查询 结构 可 以 更 复杂 ， 但 查询 的 基本 结构 非常 容易 ， 即 使 是 新 手 或 非 程 序 员 也 能 掌握 。 如 
果 用 户 理 解 了 其 在 数据 库 中 的 视图 的 名 字 和 结构 ， 他 们 很 快 就 能 获得 检索 提问 的 答案 ， 而 不 
需要 依赖 专业 的 应 用 开发 者 。 这 当然 也 有 危险， 查询 应 该 在 确保 它们 获取 正确 数据 之 前 被 测 
试 ， 而 初学 者 可 能 不 理解 这 个 挑战 。 

9. 减少 程序 维护 

有 多 个 理由 来 经 常 地 改变 存储 的 数据 : 增加 新 的 数据 项 类 型 ， 数 据 格式 被 改变 ， 等 等 。 
该 问题 的 一 个 典型 的 例子 是 知名 的 “千年 虫 ” 问 题 ， 也 就 是 年 份 的 表示 从 2 位 数字 更 改 为 4 
位 数字 ， 以 适应 1999 年 到 2000 年 的 过 渡 。 

在 文件 处 理 环境 ， 数 据 描述 和 对 数据 访问 的 逻辑 都 是 存在 于 单个 的 应 用 程序 中 (这 就 是 
早 前 描述 的 程序 -数据 相关 )。 数 据 格式 和 访问 方式 改变 的 结果 导致 了 应 用 程序 的 修改 。 在 
数据 库 环 境 ， 数 据 与 使 用 它 的 程序 更 加 独立 。 在 一 定 的 范围 内 ， 无 论 是 修改 数据 或 是 修改 使 
用 数据 的 应 用 程序 都 不 需要 修改 另外 一 个 要 素 。 因 此 ， 现 代数 据 库 环境 中 能 有 效 地 减少 程序 
的 维护 工作 。 

10. 改进 的 决策 支持 

有 些 数据 库 是 为 决策 支持 应 用 而 设计 。 例 如 ， 有 些 数据 库 是 为 支持 客户 关系 管理 ， 还 有 
的 是 为 文 持 金融 分 析 ， 或 者 是 支持 供应 链 管理 。 第 9 章 中 将 讨论 如 何 为 不 同 的 决策 支持 应 用 
和 分 析 类 型 裁 前 数据 库 。 


1.3.5 ”数据库 优点 的 警告 


前 一 节 中 给 出 了 数据 库 方法 的 10 个 主要 潜在 优点 。 可 是 ， 必 须 提醒 读者 ， 很 多 组 织 在 
试图 实现 其 中 的 一 些 益处 时 遭受 挫折 。 例 如 ， 数 据 独 立 的 目标 (因此 ,减少 程序 维护 ) 已 经 
被 排除 ， 这 是 由 于 较 早 的 数据 模型 和 数据 库 管 理 软件 的 局 限 性 所 致 。 所 幸 关 系 模型 和 更 新 的 
面向 对 象 模 型 提供 了 更 好 的 环境 来 获得 这 些 益处 。 而 另外 使 该 收益 不 能 成 功 的 原因 是 组 织 的 
规划 和 数据 库 实现 不 够 好 。 即 使 是 最 好 的 数据 管理 软件 也 不 能 克服 这 样 的 缺陷 。 因 此 ， 在 本 
教材 中 强调 数据 库 规划 和 设计 。 


La 
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1.3.6 ”数据 库 方法 的 代价 和 风险 


数据 库 并 不 是 银 弹 ， 它 没有 哈里 - 波 特 的 神奇 力量 。 当 实现 数据 库 时 ， 与 其 他 商业 决策 
一 样 ， 要 认识 到 数据 库 方 法 也 有 附加 的 成 本 代价 和 风险 (参见 表 1-4 数据库 方 法 的 
表 1-4 )。 代价 和 风险 

1. 新 的 专业 化 人 员 新 的 专业 化 人 员 

通 笛 准备 采用 数据 库 方 法 的 组 织 要 雇佣 和 培训 设计 和 实现 ”启动 和 管理 的 开销 以 及 复杂 度 
数据 库 的 人 员 ， 提 供 数 据 库 管 理 服务 和 增设 对 新 人 管理 的 职员 。 ”转换 代价 
进一步 讲 ， 由 于 技术 上 的 迅速 变革 ， 这 些 新 人 要 不 断 培 训 和 升 ne 
级 。 这 些 人 员 的 增加 可 能 多 于 其 他 生产 利润 的 补偿 ， 但 是 组 织 一 一 
必须 认识 到 这 些 专门 技能 的 必要 性 ， 它 们 是 为 了 能 获得 最 大 潜在 收益 所 需要 的 。 

2. 启动 和 管理 开销 以 及 复杂 度 

多 用 户 的 数据 库 管理 系统 是 一 个 很 大 很 复杂 的 软件 ， 其 启动 开销 很 高 ， 需 要 经 过 培训 的 
职员 去 安装 和 操作 ， 而 且 还 要 有 周期 性 的 维护 和 支持 开销 。 安 装 这 样 一 个 系统 可 能 还 需要 升 
级 组 织 中 原 有 的 硬件 和 数据 通信 和 系统， 还 需要 常规 的 培训 以 适应 系统 新 版 本 和 升级 。 男 外 需 
要 更 成 熟 的 、 高 代价 的 数据 库 软 件 以 提供 安全 功能 ， 保 证 共享 数据 的 升级 正确 。 

3. 转换 开销 

遗留 系统 ( legacy system) 是 指 组 织 中 原 有 的 基于 文件 处 理 和 /或 最 早 数据 库 技术 之 上 
的 应 用 。 epi nn rl ete cel ed 
各 党 抑制 组 织 。 利 用 数据 仓库 是 既 使 用 老 系 统 而 同时 又 能 开拓 现代 数据 库 技术 
eg (Ritter, 1999 ) 。 

4. 显 式 的 备份 和 恢复 需求 

共享 的 数据 库 必须 总 是 正确 的 和 可 用 的 。 这 就 需要 开发 综合 的 过 程 以 提供 数据 的 备份 复 
制 和 故障 后 的 数据 库 恢 复 。 在 目前 严重 的 安全 环境 下 ， 这 一 点 就 更 显得 重要 和 紧急 ， 现 代数 
据 库 管 理 系 统 通常 比 文件 系统 提供 更 多 备份 和 恢复 任务 。 

5. 组 织 冲 突 

共享 数据 库 需 要 对 数据 定义 和 数据 拥有 者 有 一 致 的 意见 ， 并 且 要 负责 做 精确 的 数据 维 
护 。 经 验 表明 ， 在 数据 定义 、 数 据 格式 和 编码 、 更 新 共享 数据 的 权力 以 及 相关 联 的 一 些 观点 
上 的 冲突 常常 发 生 ， 并 且 通 常 也 很 难 解决 。 这 些 问题 的 处 理 需要 组 织 委 员 会 对 数据 库 方 法 的 
坚持 、 组 织 级 别 的 数据 库 管 理 员 和 坚实 的 革命 方式 去 完成 数据 库 开 发 。 

如 缺少 强劲 的 高 层 管理 对 数据 库 方 法 的 支持 ， 单 个 数据 库 终 端 用 户 的 开发 将 扩散 。 这 样 
得 到 的 数据 库 不 是 本 章 描述 的 数据 库 方法 ， 它 们 不 可 能 提供 早 前 提 到 的 那些 好 处 ， 最 终 它 将 
导致 制定 差 的 决策 ， 从 而 吓 住 了 运行 良好 的 或 已 存在 的 组 织 。 


1.4 数据 库 环 境 的 组 成 


至 此 已 经 描述 了 利用 数据 库 方法 管理 数据 的 优点 和 风险 ， 现 在 来 讨论 典型 的 数据 库 环境 
的 主要 组 成 成 分 以 及 它们 之 间 的 关系 (参见 图 1-5 )。 前 面 小 节 中 对 图 中 的 某 些 成 分 已 有 介 
绍 ， 但 不 是 全 部 。 下 面 是 图 1-5 中 9 个 组 成 的 简要 描述 : 

1 ) 计算 机 辅助 软件 工程 ( CASE) 工具 CASE 是 用 于 设计 数据 库 和 应 用 程序 的 自助 工 
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具 。 这 些 工 具有 助 于 创建 数据 模型 ， 有 些 还 可 以 帮助 自动 地 生成 创建 该 数据 库 的 “代码 ”。 
本 教材 建议 使 用 这 些 工 具 来 完成 数据 库 的 设计 和 数据 和 数据 库 
开发 。 管理 员 系统 开发 者 终端 用 户 

2 ) 知识 库 ”知识 库 是 一 个 集中 的 含有 所 有 数 : 
据 定义 、 数 据 关 系 、 屏 幕 和 报告 格式 以 及 其 他 系 
统 组 成 的 知识 库 。 知 识 库 含有 扩展 的 元 数据 集 ， 
它 对 于 管理 数据 库 和 信息 系统 其 他 组 成 很 重要 。 

3) DBMS DBMS 是 一 个 软件 系统 ， 它 用 于 
创建 、 维 护 和 提供 对 用 户 数 据 库 的 控制 访问 。 

4 ) 数据 库 数据库 是 一 个 有 组 织 的 逻辑 相关 
数据 的 集合 ， 通 常设 计 用 于 满足 该 组 织 中 多 用 户 人 
的 信息 需求 。 区 别 数据 库 和 知识 库 非 常 重要 。 知 识 库 包 含 数据 的 定义 ， 而 数据 库 包 含 数据 的 
值 。 第 4 章 和 第 5 章 将 描述 数据 库 设 计 的 活动 ， 第 6 章 到 第 9 章 将 讨论 实现 的 活动 。 

5 ) 应 用 程序 基于 计算 机 的 应 用 程序 用 于 创建 和 维护 数据 库 ， 并 且 给 用 户 提供 信息 。 
第 6 章 到 第 9 章 将 讨论 数据 库 相 关 的 应 用 程序 设计 的 关键 技能 。 

6 ) 用 户 界 面 用户 界面 包括 语言 、 菜 单 和 其 他 与 各 个 系统 组 成 相交 互 的 设施 ， 如 
CASE 工具 、 应 用 程序 、DBMS 以 及 知识 库 。 本 教材 中 全 部 使 用 用 户 界 面 来 做 解释 。 

7 ) 数据 和 数据 库 管 理 员 ”数据 管理 员 是 组 织 中 全 面 负责 数据 资源 管理 的 人 员 。 数 据 库 
管理 员 负 责 物理 数据 库 设计 和 数据 库 环境 中 的 管理 技术 问题 。 

8 ) 系统 开发 者 ”系统 开发 者 是 指 设计 新 应 用 程序 的 系统 分 析 员 和 程序 设计 人 员 。 系 统 
开发 者 常常 使 用 CASE 类 工具 完成 系统 需求 分 析 和 程序 设计 。 

9 ) 终端 用 户 ”终端 用 户 是 组 织 中 对 数据 库 中 的 数据 完成 添加 、 删 除 和 修改 的 人 员 ， 他 
们 需要 向 数据 库 申请 信息 和 从 数据 库 中 获取 信息 。 所 有 这 有 数据库 的 用 户 界面 都 必须 通过 
DBMS 。 

总 而 言 之 ， 图 1-5 中 给 出 的 数据 库 操 作 环 境 是 一 个 有 关 硬 件 、 软 件 及 人 员 的 综合 系统 ， 
这 个 系统 被 设计 得 具有 存储 、 检 索 和 控制 信息 资源 并 且 改 进 组 织 的 生产 力 的 能 力 。 


1.5 数据库 开发 过 程 


一 个 组 织 如 何 开 始 开 发 数据 库 呢 ? 在 很 多 组 织 中 ， 数据库 的 开发 是 从 企业 数据 建 模 
(enterprise data modeling) 开始 的 。 企 业 数据 建 模 建 立 组 织 数据 库 的 范围 和 一 般 的 内 容 ， 它 
的 目的 是 创建 一 个 有 关 组 织 数 据 的 整体 图 画 或 解释 ， 而 不 是 设计 为 一 个 特定 的 数据 库 。 一 -个 
特定 的 数据 库 为 一 个 或 多 个 信息 系统 提供 数据 ， 而 企业 数据 模型 可 以 包含 多 个 数据 库 ， 描 述 
一 个 由 组 织 维护 的 数据 范围 。 在 企业 数据 建 模 中 ， 需 要 概述 当前 的 系统 ， 分 析 将 要 支持 的 业 
务 领域 的 性 质 ， 描 述 在 较 高 抽象 层次 的 数据 ， 规 划一 个 或 多 个 数据 库 开发 项 目 。 

图 1-3a 给 出 了 Pine Valley 家 具 公 司 企业 数据 模型 的 一 个 片段 ， 使 用 的 是 将 在 第 2 章 和 
第 3 章 中 学 习 的 简化 标记 版 本 。 除 了 这 里 给 出 的 实体 模型 的 图 形 描 述 外 ， 一 个 完整 的 企业 数 
据 模型 还 要 包括 每 个 实体 类 型 面向 业务 的 描述 以 及 各 种 如 何 实施 业务 操作 的 纲要 语句 ， 这 
些 语句 也 称 作 业务 规则 (business rule)， 它 们 规范 了 数据 的 合法 性 。 业 务 对 象 (业务 功能 、 
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单位 、 应 用 等 ) 和 数据 之 间 的 关系 通常 使 用 矩阵 方式 获取 ， 以 补充 企业 数据 模型 中 的 信息 。 
图 1-6 给 出 了 这 样 一 个 矩阵 的 例子 。 
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图 1-6 业务 功能 -数据 实体 矩阵 举例 


企业 数据 建 模 作 为 自 项 向 下 的 信息 系统 规划 和 开发 方法 的 组 成 成 分 ， 表示 了 数据 库 项 目 
的 一 个 来 源 。 这 样 的 项 目 常常 开发 成 一 个 新 的 数据 库 ， 以 适应 某 种 企业 决策 目标 ， 如 改进 客 
户 支 持 ， 更 好 的 生产 和 库存 管理 ， 或 者 是 更 精确 的 销售 预测 。 但 是 数据 库 项 目的 产生 更 多 是 
以 自 底 向 上 的 方式 。 在 这 种 情况 下 ,项 目 是 由 信息 系统 用 户 提出 ， 他 们 在 工作 中 需要 茶 些 信 
息 ， 或 者 是 其 他 信息 系统 的 专业 人 员 认 识 到 组 织 中 的 数据 管理 需要 改进 。 

典型 的 自 底 向 上 方式 的 数据 库 开发 项 目 常常 聚焦 在 某 一 个 数据 库 创建 上 。 茶 些 数据 库 项 
目 仅 仅 集 中 在 定义 、 设 计 和 实现 一 个 数据 库 ， 该 数据 库 是 后 续 信 息 系 统 开发 的 基础 。 可 是 ， 
在 大 多 数 情 况 下 ， 数 据 库 和 其 关联 的 信息 处 理 功 能 是 一 起 开发 的 ， 是 综合 信息 系统 开发 项 目 
的 一 部 分 。 


1.5.1 系统 开发 生命 周期 


正如 你 在 其 他 信息 系统 课程 中 已 学 习 到 的 ， 传 统 信息 系统 开发 项 目的 实施 过 程 被 称 作 系 
统 开 发 生命 周期 ( System Development Life Cycle，SDLC)。SDLC 是 一 个 完整 的 过 程 步骤 
集合 ， 包 括 数据 库 设 计 者 和 程序 员 在 内 的 信息 系统 专业 人 士 组 成 的 团队 针对 一 个 组 织 完成 说 
明 、 开 发 、 维 护 和 置换 信息 系统 处 理 。 教 科 书 和 组 织 中 使 用 各 种 生命 周期 方法 ， 可 能 有 3 到 
20 种 不 同 的 阶段 。 

图 1-7 给 出 了 SDLC 中 的 各 个 步骤 及 与 其 相关 联 的 目标 (Hoffer et al., 2011 )。 这 个 处 
理 过 程 看 起 来 是 循环 的 ， 它 承载 了 系统 开发 项 目的 迭代 性 质 。 在 时 间 上 ， 这 些 步骤 可 以 是 重 
释 的 ， 它 们 可 以 并 行 地 实施 ; 当前 一 个 步骤 需要 重新 考虑 时 ， 这 些 步 骤 也 可 以 回溯 。 人 们 相 
信 ， 最 公共 的 开发 过 程 是 周期 性 地 通过 图 1-7 中 的 步骤 ， 但 随 着 系统 需求 变 得 更 加 具体 ， 每 
一 遍 的 循环 将 变 得 更 加 详细 。 

图 1-7 也 给 出 了 SDLC 每 一 阶段 中 数据 库 开 发 活动 的 概况 。 注 意 ，SDLC 阶段 和 数据 库 
开发 步骤 并 不 一 一 对 应 。 例 如 ， 概 念 数 据 建 模 在 规划 和 分 析 阶 段 中 都 出 现 。 本 章 的 较 后 部 分 
将 结合 Pine Valley 家 具 公司 简要 描述 数据 库 开 发 步骤 。 
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目标 : 对 业务 情境 和 信息 系统 如 何 帮 
助 解 决 问题 或 制定 一 个 可 能 机 遇 进 行 初 
始 理解 











企业 建 模 

* 分析 当前 数据 处 理 

。 分 析 一 般 的 业务 功能 和 它们 的 数据 库 需求 

* 评估 在 业务 支持 中 对 新 的 数据 和 数据 库 的 需求 


概念 数据 建 模 
*。 对 提出 的 信息 系统 的 数据 库 需 求 确定 范围 


* 分 析 由 数据 库 支 持 的 业务 功能 的 整体 数据 需求 
目标 : 监视 系统 的 操作 和 使 用 ， 


维护 和 增强 系统 
概念 数据 建 模 [ 续 ] 
* 开发 初始 的 概念 数据 模型 包括 所 


数据 库 维 扩 有 实体 和 联系 


。 为 了 确保 演化 信息 需求 得 到 









目标 : 完全 地 分 析 业 务 


四 个 企 
满足 ， 分 析 数 据 库 和 数据 库 | 情境 ， 以 确定 需求 组织 ee 
应 用 这 些 需求 ， 从 互相 矛盾 的 
. 开发 详细 的 概念 数据 模型 ， 包 括 所 
“ 修复 数据 库 和 数据 库 应 用 中 . _ 致 化 概念 数据 模型 与 其 他 信息 系 
的 错误 ， 并 且 当 数据 库 被 污 a 
米 时 恢复 数据 库 . 填写 所 有 概念 数据 库 规范 的 知识 库 


目标 : 编写 程序 ， 构 建 数 


目标 : 抽取 和 组 织 所 有 信息 需求 ， 
据 库 ， 测 试 和 安装 新 系统 ， 


开发 所 有 技术 和 组 织 规范 
培训 用 户 ， 完 成 文档 剖 模 数据 让 设计 
i ee 
“ 编码 和 测试 数据 库 处 理 程序 . 将 数据 库 视图 整合 到 概念 数据 模型 中 
。 完成 数据 库 文档 和 培训 资料 - eg 
: A * 标识 数据 完整 性 和 安全 性 需求 ， 并 且 填 写 相关 知识 库 
SEs 物理 数据 库 设 计 和 定义 
,定义 数据 库 到 DBMS (常常 从 知识 库 生 成 ) 
。 决定 数据 的 物理 组 织 
。 设 计数 据 库 处 理 程序 
图 1-7 系统 开发 生命 周期 (SDLC) 中 的 数据 库 开 发 活动 
1. 规划 一 一 企业 建 模 


数据 库 开 发 过 程 从 信息 系统 规划 过 程 期 间 开 发 企业 建 模 组 件 开始 。 在 这 个 阶段 ， 分 析 人 
员 重 新 审视 当前 的 数据 库 和 信息 系统 ， 分 析 商 业 领 域 的 特点 (这 是 该 开发 项 目的 目标 )， 用 
常用 的 术语 描述 要 开发 的 信息 系统 的 数据 需求 。 确 定 在 已 存在 的 数据 库 中 有 哪些 数据 可 用 ， 
还 有 哪些 数据 需要 加 入 数据 库 中 以 支持 新 项 目 。 根 据 每 个 项 目 对 组 织 的 价值 ， 仅 仅 选 择 那 些 
有 价值 的 项 目 进入 下 一 阶段 。 

2. 规划 一 一 概念 数据 建 模 

对 于 一 个 已 开始 的 信息 系统 项 目 而 言 ， 必 须 分 析 信 息 系统 的 全 局 数据 需求 。 这 个 工作 
在 两 个 阶段 内 完成 。 首 先是 在 规划 阶段 ,分 析 人 员 产 生 一 个 类 似 于 图 1-3a 的 图 及 其 他 文档 ， 
勾画 出 这 个 特定 开发 项 目 所 涉及 的 数据 范围 ， 而 不 考虑 是 否 已 存在 有 数据 库 。 在 这 时 仅仅 是 
高 层 类 别 的 数据 (实体 ) 和 主要 的 关联 被 包含 在 内 。 这 一 步 在 SDLC 中 对 于 改进 后 续 开发 过 
程 是 关键 的 一 步 。 这 时 组 织 的 特定 需求 定义 得 越 好 ， 那 么 据 此 给 出 的 概念 模型 就 与 组 织 需 求 
贴 合 得 越 紧 密 ， 贯 穿 SDLC 的 返回 重 设计 的 需求 就 越 少 。 
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3. 分 析 一 一 概念 数据 建 模 

在 SDLC 的 分 析 阶 段 ， 分 析 人 员 产 生 一 个 详细 的 数据 模型 ， 该 模型 标识 了 所 有 该 信息 系 
统 要 管理 的 该 组 织 的 数据 。 每 一 个 数据 属性 都 被 定义 ， 所 有 的 数据 类 别 被 列 出 ， 数 据 实体 之 
间 的 每 一 个 商业 关联 被 表示 ， 刻 画 数据 完整 性 的 规则 被 说 明 。 在 分 析 阶 段 ， 还 要 检查 概念 数 
据 模 型 与 目标 信息 系统 的 其 他 目标 的 其 他 类 型 模型 的 一 致 性 ， 例 如 处 理 阶 段 、 处 理 数 据 的 规 
则 以 及 事件 的 时 间 性 等 。 可 是 ， 即 使 这 个 详细 的 概念 数据 模型 被 仔细 建立 ,在 设计 特定 的 事 
务 、 报 告 、 显 示 和 查询 等 后 续 的 SDLC 活动 中 也 可 能 发 现 某 些 元 素 缺 失 或 者 出 现 某 些 错误 。 
依据 经 验 ， 数 据 库 开发 者 会 获得 通常 的 商业 功能 的 构思 ( mental) 模型 ， 例 如 销售 、 财 务 记 
录 ， 但 是 必须 保留 修改 的 能 力 以 适应 组 织 对 通常 业务 的 例外 情况 处 理 。 概 念 建 模 的 产品 是 概 
念 模式 (conceptual schema ) 。 

4. 设计 一 一 逻辑 数据 库 设 计 

逻辑 数据 库 设 计 从 两 个 方面 完成 数据 库 开 发 。 首 先 ， 概 念 模式 要 转换 为 逻辑 模式 ， 就 是 
用 实现 该 数据 库 的 数据 管理 技术 的 术语 描述 数据 。 例 如 ， 如 果 使 用 关系 技术 ， 概 念 数据 模型 
将 被 转换 为 用 关系 模型 的 元 素 表 示 ， 它 包括 表 、 列 、 行 、 主 键 、 外 键 和 约束 (第 4 章 将 讨论 
这 个 重要 的 处 理 过 程 )。 这 个 表示 被 称 作 逻辑 模式 (logical schema)。 

然后 ， 设 计 信息 系统 中 的 每 一 个 应 用 ， 包 括 程序 的 输入 /输出 格式 ， 分 析 人 员 将 详细 地 
重新 审视 该 数据 库 要 支持 的 事务 、 报 告 、 显 示 和 查询 。 在 这 种 自 底 向 上 的 分 析 过 程 中 ， 分 析 
人 员 明 确 地 验证 哪些 数据 要 在 该 数据 库 中 维护 ， 验 证 每 个 事务 、 报 告 等 需求 的 数据 特征 。 随 
着 每 个 报告 、 商 业 事务 和 其 他 用 户 视 图 被 分 析 ， 这 个 概念 数据 模型 可 能 要 被 精炼 。 在 这 种 情 
形 下 ,逻辑 数据 库 设计 就 将 原来 的 概念 数据 模型 与 这 些 独 立 的 用 户 视图 结合 ， 综 合成 一 个 复 
杂 的 设计 。 

逻辑 数据 库 设计 的 最 后 一 步 是 遵循 基于 好 的 结构 化 数据 规范 所 建立 的 合适 规则 将 协调 组 
合 起 来 的 数据 规范 转换 成 基本 的 或 原子 的 元 素 。 对 于 目前 大 多 数 数据 库 而 言 ， 这 些 规则 来 日 
于 关系 数据 库 理论 ， 其 过 程 称 作 规范 化 ( normalization)， 在 第 4 章 中 将 详细 对 此 讨论 。 其 结 
果 是 一 个 完整 的 有 关 数 据 库 的 图 片 ， 不 包含 任何 对 管理 这 些 数 据 的 特定 的 数据 库 管 理 系统 的 
引用 。 随 着 逻辑 数据 库 设 计 的 产生 ， 分 析 人 员 开 始 对 特定 计算 机 程序 逻辑 及 维护 和 报告 数据 
库 内 容 所 需要 的 查询 进行 说 明 。 

5. 设计 一 一 物理 数据 库 设计 和 定义 

物理 模式 ( physical schema) 是 一 组 规范 ， 它 描述 了 来 自 逻 辑 模式 的 数据 如 何 被 一 个 特 
定 的 数据 库 管理 系统 存储 在 计算 机 二 级 存储 器 中 。 每 个 逻辑 模式 对 应 一 个 物理 模式 。 物 理 数 
据 库 设计 需要 有 关 实 现 数 据 库 的 特定 DBMS 的 知识 。 在 物理 数据 库 设 计 和 定义 中 ,分 析 人 
员 决 定 物 理 记录 的 组 织 、 文 件 组 织 的 选 样 以 及 索引 的 应 用 等 。 为 此 ， 数 据 库 设 计 者 需要 总 结 
出 程序 来 处 理事 务 ， 并 生成 预测 的 管理 信息 和 决策 支持 报告 。 其 目的 是 设计 一 个 数据 库 来 安 
全 有 效 地 管理 所 有 在 其 上 的 数据 处 理 任 务 。 这 样 ， 物 理 数 据 库 设计 将 与 物理 信息 系统 的 所 有 
其 他 方面 紧密 合作 ， 如 程序 、 计 算 机 硬件 、 操 作 系 统 和 数据 通信 网 络 等 。 

6. 实现 一 一 数据 库 实 现 

在 数据 库 实 现 中 ， 设 计 者 要 编写 、 测 试 和 安装 程序 / 脚本 来 访问 、 创 建 或 修改 数据 库 。 
设计 者 可 以 应 用 标准 的 程序 设计 语言 (如 Java、C# 或 Visual Basic.NET)， 或 者 应 用 特定 的 
数据 库 处 理 语言 (如 SQL), 或 者 应 用 专用 的 非 过 程 语 言 产生 具有 特定 风格 的 报告 和 显示 ， 
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也 可 能 是 图 形 。 在 实现 的 过 程 中 ,设计 者 还 要 完成 所 有 数据 库 文档 ,培训 用 户 ， 并 且 要 将 过 
程 置 人 正在 实施 的 信息 系统 (和 数据 库 ) 用 户 文 持 中 。 最 后 一 步 是 从 已 存在 的 信息 源 中 加 载 
数据 〈 即 来 目 于 原 有 应 用 中 的 文件 和 数据 库 ， 并 加 上 新 需要 的 数据 )。 加 载 通 党 是 先 鲫 载 已 
有 的 文件 和 数据 库 为 中 间 格 式 〈 如 二 进 制 或 文本 文件 )， 然 后 将 这 些 数据 装 人 新 数据 库 。 最 
终 ， 数 据 库 和 它 相 关 的 应 用 放 和 生产 环节 中 ， 被 实际 的 最 终 用 户 维护 和 检索 。 在 生产 过 程 
中 ,数据库 要 周期 性 地 备份 ， 并 且 能 在 毁坏 时 恢复 。 

7. 维护 一 一 数据 库 维护 

在 数据 库 维 护 期 间 数 据 库 获 得 演化 。 在 这 一 步 中 ,设计 者 添加 、 删 除 或 修改 数据 库 结 
构 的 特征 ， 以 适应 商业 环境 的 改变 ， 更 正 数据 库 设计 中 的 错误 ,改进 数据 库 应 用 的 处 理 速 
度 。 如 果 数 据 库 被 污染 或 者 由 于 计算 机 系统 或 程序 故障 使 得 数据 库 被 毁坏 ， 设 计 者 还 要 重新 
构建 数据 库 。 这 是 数据 库 开 发 步骤 中 最 长 的 一 步 ， 因 为 它 持续 地 贯穿 于 数据 库 以 及 与 其 相关 
联 的 应 用 的 生命 周期 。 数 据 库 每 次 演化 ， 可 以 将 其 看 成 一 个 缩 简 的 数据 库 开 发 过 程 ， 这 个 
过 程 中 包含 概念 数据 建 模 、 逻 辑 和 物理 数据 库 设 计 、 数 据 库 实 现 ， 以 处 理 商 业 应 用 提出 的 
改变 。 


1.5.2 ”信息 系统 开发 方法 的 选择 


SDLC 或 其 轻微 的 改进 方法 常常 被 用 于 指导 信息 系统 或 数据 库 的 开发 。SDLC 是 一 个 方 
法 学 的 高 结构 化 的 方法 ， 该 方法 中 包含 有 很 多 验证 和 平衡 以 确保 每 步 过 程 都 能 准确 地 产生 ， 
并 且 新 的 或 置换 的 信息 系统 与 已 存在 的 系统 一 致 ， 为 此 必须 要 有 沟通 和 需要 一 致 的 数据 定 
义 。 这 就 有 很 多 工作 。 另 外 ，SDLC 常常 被 批评 的 是 它 的 开发 时 间 。 它 需要 一 直到 一 个 工作 
系统 被 产生 ， 而 这 只 有 到 了 整个 过 程 的 终点 才能 完成 。 作 为 可 蔡 换 的 选择 ， 组 织 者 逐渐 地 使 
用 快速 应 用 开发 (RAD ) 方法 ， 它 遵循 的 是 迭代 的 快速 重复 分 析 、 设 计 和 实现 步骤 的 过 程 ， 
一 直到 用 户 想 要 的 系统 产生 。 当 大 多 数 需 要 的 数据 结构 已 经 存在 时 ，RAD 方法 是 最 好 的 方 
法 。 因 此 ， 对 于 系统 而 言 ， 重 要 的 是 检索 数据 ， 而 不 是 发 布 和 修正 数据 库 。 

最 普遍 的 RAD 方法 是 原型 法 ( prototyping)。 它 是 一 个 迭代 的 系统 开发 过 程 ， 其 中 需 
求 被 转换 为 工作 系统 ， 然 后 它 就 不 断 地 在 分 析 人 员 和 终端 用 户 之 间 的 紧密 工作 中 被 修正 。 
图 1-8 给 出 了 原型 方法 的 处 理 过 程 。 该 图 中 包含 了 明显 的 标记 ， 这 些 标 记 大 致 说 明了 在 每 一 
个 原型 开发 阶段 数据 库 开 发 活动 的 哪 一 步 会 出 现 。 例 如 ， 当 信息 系统 问题 被 确定 的 时 候 ， 你 
可 以 仅仅 关注 概念 数据 建 模 。 在 初始 原型 开发 期 间 ， 你 同时 设计 用 户 需 要 的 显示 和 报告 ， 以 
帮助 用 户 理解 该 原型 将 要 使 用 的 任何 新 的 数据 库 需 求 和 数据 库 定 义 。 这 完全 是 一 个 轨 新 的 数 
据 库 ， 它 是 部 分 已 存在 数据 库 的 复制 ， 也 可 能 具有 一 些 新 内 容 。 如 果 需 要 新 内 容 ， 它 们 一 般 
是 来 自 于 外 部 数据 源 ， 例 如 市 场 调研 数据 、 一 般 经 济 学 指标 或 工业 标准 等 。 

数据 库 实 现 与 维护 活动 一 直 重 复 地 伴随 着 新 的 原型 版 本 的 产生 。 这 期 间 安 全 性 和 完整 性 
一 般 不 是 重点 ， 因 为 这 时 强调 的 是 尽 可 能 快 地 产生 出 一 个 可 以 工作 的 原型 版 本 。 同 样 ， 文 
档 也 趋向 于 在 项 目 结束 时 给 出 ， 用 户 培 训 就 是 从 手把手 的 应 用 开始 。 最 后 ， 当 一 个 接受 的 原 
型 创建 后 ， 开 发 者 和 用 户 将 确定 它 是 否 是 最 终 的 原型 ， 并 且 该 原型 和 它 的 数据 库 是 否 可 以 
投入 到 生产 环节 之 中 。 如 果 该 系统 及 其 相连 的 数据 库 不 太 有 效 ， 则 系统 和 数据 库 必 须 重 新 
编写 和 组 织 ， 以 适应 期 望 的 性 能 。 当 然 ， 无 效率 必须 与 违反 健壮 的 数据 库 设 计 的 基本 原则 相 
权衡 。 
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图 1-8 原型 方法 和 数据 库 开发 过 程 


随 着 可 视 化 程序 设计 工具 (如 Visual Basic、Java 或 C#) 的 逐渐 普及 ， 用 户 和 系统 界面 
的 修改 变 得 容易 ， 原 型 方法 正成 为 可 选 的 系统 开发 方法 ， 以 开发 新 的 应 用 。 使 用 原型 方法 对 
于 改变 用 户 报 告 和 显示 的 内 容 及 格式 相对 来 说 比较 容易 。 

RAD 和 原型 方法 演示 迭代 式 系统 开发 获得 的 好 处 已 激发 人 们 更 努力 地 创建 更 具 展 现 能 
力 的 开发 方法 。2001 年 2 月 ，17 个 感 兴趣 支持 该 方法 的 个 人 组 成 的 小 组 创建 了 “敏捷 软件 
开发 联盟 ”， 对 于 他 们 而 言 ， 敏 捷 软 件 开发 (agile software development) 实践 的 价值 包括 
(www.agilemanifesto.org ): 

e 在 处 理 和 工具 上 的 个 性 化 和 交互 性 

e 处 理 综合 文档 的 工作 性 软件 

e 合同 协商 上 的 客户 协作 

e 跟随 规划 对 改变 的 响应 

这 些 措辞 中 显然 强调 了 人 的 重要 性 ， 包 括 软件 开发 者 和 客户 双方 人 员 。 对 比 来 自 于 更 
加 保守 的 工程 开发 项 目的 环境 (早期 软件 开发 方法 学 的 环境 )， 软 件 开发 处 于 混乱 环境 。 在 
SDLC 中 建立 的 实践 的 重要 性 持续 地 被 软件 开发 者 认识 和 接受 ， 这 也 包括 敏捷 软件 开发 联盟 
的 创建 者 们 。 可 是 ， 这 些 实践 要 能 快速 反映 项 目 修改 需求 的 环境 变化 是 不 可 行 的 。 

当 一 个 项 目 涉及 不 可 预测 的 和 /或 改变 的 需求 、 负 责 的 和 协作 的 开发 者 以 及 能 够 理解 并 
对 处 理 有 贡献 的 客户 时 ， 需 要 使 用 敏捷 和 上 自 适应 方法 ( Fowler，2005 )。 如 果 你 有 兴趣 学 习 
更 多 有 关 敏 捷 软 件 开发 的 知识 ， 那 么 要 调研 敏捷 方法 学 ， 如 极限 编程 、Scrum、DSDM 联盟 
和 特征 驱动 的 开发 等 。 


1.5.3 ”数据 库 开 发 的 三 级 模式 体系 结构 

本 章 前 面 介绍 的 数据 库 开 发 过 程 提 到 多 个 不 同 但 是 有 关联 的 关于 系统 开发 项 目的 数据 库 
开发 模型 。 这 些 模型 以 及 SDLC 中 开发 这 些 模型 的 主要 阶段 总 结 如 下 : 

e。 企业 数据 模型 (信息 系统 规划 阶段 ) 

e 外 模式 或 用 户 视图 (分析 和 逻辑 设计 阶段 ) 





人 诺 1 茧 禾 据 摩 环 境 和 开发 轴 加 19 


。 概念 模式 (分析 阶段 ) 

e 逻辑 模式 (人 逻辑 设计 阶段 ) 

e 物理 模式 (物理 设计 阶段 ) 

1978 年 ， 工 业 协 会 普遍 知道 ANSI/SPARC 发 布 了 一 个 重要 的 文件 ， 该 文件 描述 了 三 级 
模式 体系 结构 (外 、 概 念 和 内 模式 ) 的 数据 结构 。 图 1-9 给 出 了 在 SDLC 开发 过 程 中 这 些 模 
式 和 ANSI 三 级 模式 体系 结构 之 间 的 关联 。 要 记 住 的 是 ， 这 些 模式 只 是 用 不 同 的 框架 来 刻画 | 20 
同一 个 数据 库 结构 的 不 同方 法 。 21 


用 户 视图 1 (报告 ) 
用 户 视 图 2 (屏幕 显示 ) 


用 户 视图 n( 订 单 ) 





逻辑 模式 物理 模式 


数据 库 1 (订单 处 理 ) |------------ 
数据 库 2 (供应 链 ) | -一 


i 


图 1-9 三 级 模式 体系 结构 


ANSI 定义 的 三 级 模式 (图 1-9 的 中 间 部 分 ) 描述 如 下 : 
1 ) 外 模式 ”这 是 数据 库 用 户 (如 管理 员 或 职工 ) 的 视图 (或 视图 集合 )。 如 图 1-9 所 示 ， 
外 模式 可 以 表示 为 企业 数据 模型 的 组 合 ( 自 顶 向 下 视图 ) 和 详细 的 ( 自 底 向 上 ) 用 户 视 图 的 


人 人 
FI 5 


2 ) 概念 模式 “该 模式 是 将 不 同 的 外 部 视图 组 合 在 一 起 形成 一 个 单个 的 、 互 相 协作 的 、 
综合 的 企业 数据 定义 。 概 念 模式 代表 了 数据 架构 或 数据 管理 员 的 视图 。 

3 ) 内 模式 ”如 图 1-9 所 示 ， 如 今 内 模式 是 由 两 个 独立 的 模式 组 成 : 逻辑 模式 和 物理 模 
式 。 人 逻辑 模式 是 某 种 类 型 的 数据 管理 技术 (如 关系 ) 的 数据 表示 ， 物 理 模 式 描述 在 一 个 特定 
的 DBMS (如 Oracle) 中 数据 如 何 表示 和 在 二 级 存储 器 中 存储 。 


1.6 ”数据库 系 统 的 演化 


数据 库 管理 系统 产生 于 20 世纪 60 年 代 ， 在 这 几 十 年 中 一 直 在 不 断 变革 。 图 1-10 给 出 
了 每 十 年 中 数据 库 技 术 的 变革 进程 。 在 大 多 数 情 况 下 ， 技 术 引 入 的 时 期 都 比较 长 ， 且 技术 的 
引入 都 在 每 个 十 年 的 初始 时 期 。 例 如 ， 关 系 模型 是 由 IBM 的 研究 者 E. E Codd 在 1970 年 发 
表 的 研究 论文 (Codd，1970 ) 中 首次 定义 。 但 是 关系 模型 一 直到 20 世纪 80 年 代 才 开始 在 商 
业 中 广泛 实现 。 例 如 ，20 世纪 70 年 代 程 序 员 需 要 编写 复杂 的 访问 数据 库 数据 的 程序 的 挑战 
一 直到 20 世纪 80 年 代 结 构 化 查询 语言 (SQL) 出 现 才 得 到 解决 。 


20 党 一 部 分 “发 据 订 莹 理 扒 上 下 区 
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a) 数据 库 技术 演化 
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多 维 数 据 库 模 型 -多 维 立方 体 视图 多 维 数据 库 模 型 - 星 型 模式 视图 
b) 数据 库 体系 结构 


图 1-10 数据 库 技术 的 分 类 : 过 去 和 现在 
图 1-10 显示 了 一 个 可 视 化 的 每 种 主要 数据 库 技术 的 基本 组 织 原理 。 例 如 ， 在 层次 模型 
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中 ， 文 件 按 上 自 顶 向 下 的 结构 组 织 ， 称 作 树 或 者 谱系 图 ， 而 在 网 状 模 型 中 ， 每 一 个 文件 可 以 
与 任意 数量 的 其 他 文件 相关 。 关 系 模型 (也 是 本 教材 主要 讨论 的 模型 ) 将 数据 组 织 成 表 的 形 
式 或 它们 之 间 的 联系 的 形式 。 面 回 对 象 模 型 是 基于 对 象 类 和 它们 之 间 的 联系 。 如 图 1-10b 所 
示 ， 对 象 类 封 朔 了 属性 和 方法 。 对 象 关 系数 据 库 是 面 回 对 象 和 关系 数据 库 的 混合 。 最 后 ， 多 
维 数据 库 是 数据 仓库 的 基础 ， 是 将 数据 组 织 成 立方 体 或 星 型 模式 ， 对 此 将 在 第 9 章 中 讨论 。 

当前 ， 数 据 库 被 广泛 使 用 的 主要 类 型 是 关系 数据 库 。 可 是 面向 对 象 和 对 象 关系 数据 库 持 
续 获 得 关注 ， 特 别 是 随 着 非 结构 化 内 容 的 持续 生长 ， 另 一 个 最 近 出 现 的 趋势 是 NoSQL ( Not 
Only SQL) 数据 库 。NoSQL 是 一 个 宽泛 概念 ， 它 是 指 那些 专门 为 可 能 存储 在 不 同 地 域 的 大 
数据 (结构 和 非 结构 数 据 ) 设计 的 数据 库 技术 集合 。 流 行 的 NoSQL 数据 库 例子 是 Apache 
Cassandra ( http://cassandra.apache.org /) 和 Google 的 Big Table (http://research.google.com/ 
archive/big table.html)。 对 非 关 系 型 数据 库 技术 的 需求 产生 了 Web 2.0 应 用 ， 如 博客 、wikis 
和 社交 网 站 ( Facebook、MySpace 、Twitter 、Linked In) 等 。 另 外 ， 也 是 由 于 要 能 方便 地 创 
建 非 结构 化 数据 ， 如 图 片 和 影像 。 随 着 时 间 的 推移 ， 开 发 有 效 的 数据 库 以 便 处 理 这 些 类 型 多 
样 的 数据 正在 持续 地 变 得 更 加 重要 。 由 于 更 大 的 计算 机 内 存心 片 越 来 越 便 宜 ， 因 此 出 现 了 新 
的 管理 内 存 数据 库 的 数据 库 技术 。 这 种 趋势 开启 了 更 快速 的 数据 库 处 理 技术 的 可 能 性 。 有 关 
这 方面 的 新 趋势 将 在 第 9 章 讨论 。 

最 近 的 法 案 (如 萨 班 斯 -奥克斯 利 ( Sarbanes-Oxley) 法 案 ， 健 康 保险 携带 和 责任 法 案 
(HIPAA) 以 及 巴 赛 尔 公约 ( Basel Convention) ) 都 关注 好 的 数据 管理 实践 的 重要 性 ， 并 且 重 
构 历 史 地 位 的 能 力也 已 经 获得 了 重视 。 随 着 电子 证 据 的 发 现 的 强调 和 期 望 的 增加 ， 计 算 机 取 
证 也 得 到 了 发 展 。 由 于 有 效 的 灾难 恢复 和 充分 安全 被 这 些 法 案 强制 执行 ， 因 此 好 的 数据 库 管 
理 能 力 的 重要 性 持续 上 升 。 

正在 出 现 的 更 加 方便 地 使 用 数据 库 技术 (和 此 处 处 理 一 些 法 案 挑战 ) 的 趋势 是 云 计算 。 
在 云 中 最 常见 的 技术 之 一 是 数据 库 。 关 系 的 或 非 关系 的 数据 库 正 在 通过 服务 提供 者 提供 的 技 
术 被 创建 、 使 用 和 管理 。 有 关 云 数据 库 及 相关 的 议题 在 第 8 章 中 讨论 。 


1.7 ”数据库 应 用 范围 


数据 库 能 为 人 们 做 些 什 么 呢 ?” 回 忆 图 1-5 所 示 的 内 容 ， 那 里 给 出 了 多 种 令 用 户 与 数据 库 
中 数据 交互 的 方法 。 首 先 ， 用户 可 以 利用 DBMS 提供 的 界面 直接 与 数据 库 交 互 。 这 种 方式 
下 ， 用 户 可 以 向 数据 库 发 出 命令 ( 称 作 查询 )， 然 后 获得 结果 ， 或 者 将 结果 存放 在 微软 Excel 
表格 中 ,或 者 是 Word 文档 中 。 这 种 与 数据 库 交 互 的 方法 也 称 作 ad-hoc 查询 ， 并 且 需 要 用 户 
具有 一 定 的 理解 查询 语言 的 能 力 。 

由 于 大 多 数 商 业 用 户 不 具有 这 种 能 力 ， 因 此 第 二 种 或 更 加 普遍 的 方式 是 使 用 应 用 程序 来 
访问 数据 库 。 一 个 应 用 程序 由 两 个 关键 成 分 组 成 ， 一 个 是 图 形 的 用 户 界面 用 于 接收 用 户 的 请 
求 (例如 输入 、 删 除 或 修改 数据 )， 另 一 个 是 提供 一 种 方式 显示 从 数据 库 中 获得 的 数据 。 商 
业 人 逻辑 包含 需要 作用 在 用 户 命 令 上 的 程序 逻辑 。 运 行 用 户 界面 (有 时 是 商业 逻辑 ) 的 机 需 称 
作 是 客户 端 (client) DBMS 和 包含 数据 库 的 机 器 称 作 是 数据 库 服 务 器 (database server)。 

理解 应 用 和 数据 库 不 一 定 在 同一 台 计 算 机 上 (在 大 多 数 情况 下 它们 是 不 在 一 起 的 ) 这 一 
点 很 重要 。 为 了 更 好 地 理解 数据 库 应 用 的 领域 ， 基 于 客户 端 (应 用 ) 和 数据 库 软件 本 号 的 地 
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点 将 领域 分 成 三 类 : 个 人 数据 库 、 二 层 数据 库 和 多 层 数 据 库 。 下 面 通过 一 个 典型 案例 以 及 在 
每 一 类 别 应 用 中 出 现 的 一 些 问 题 来 介绍 这 三 个 类 别 。 


1.7.1 个 人 数据 库 


仅 支 持 一 个 用 户 的 数据 库 为 个 人 数据 库 。 个 人 数据 库 位 于 个 人 电脑 (PC 机 ) 上 ,包括 
笔记 本 电脑 ， 现 在 又 可 以 是 在 智能 终端 和 个 人 数字 助手 (PDA) 上。 这些 数据 库 的 目标 是 为 
个 人 提供 对 少量 数据 的 有 效 管理 (存储 、 修 改 、 删 除 和 检索 )。 一 - 些 简单 的 数据 库 应 用 (如 
存储 客户 信息 以 及 与 每 个 客户 相关 的 详细 联系 方式 ) 能 在 PC 机 上 使 用 ， 且 为 了 备份 和 工作 
可 以 方便 地 从 一 个 设备 转移 到 男 一 个 设备 上 。 例 如 ， 一 个 有 很 多 销售 人 员 的 公司 ,这些 销 售 
人 员 直 接 与 实际 的 或 预期 的 客户 联系 。 客 户 和 价格 数据 库 应 用 可 以 使 销售 人 员 为 客户 订单 确 
定 最 好 的 产品 数量 和 类 型 的 组 合 。 

由 于 可 以 增进 个 人 生产 力 ， 个 人 数据 库 被 广泛 地 使 用 。 但 是 它们 也 引入 了 风险 : 数据 不 
能 方便 地 与 其 他 用 户 共享 。 例 如 ， 假 设 销售 经 理想 要 获得 客户 合同 的 整体 视图 ,但 是 该 视图 
不 能 快速 和 方便 地 从 单个 的 销售 人 员 数 据 库 中 获得 。 该 例 解释 了 一 个 普遍 的 问题 : 如 果 是 个 
人 有 兴趣 的 数据 ， 那 么 这 些 数据 很 快 也 会 被 其 他 人 感 兴趣 。 因 此 ,个 人 数据 库 应 被 局 限于 特 
定 的 应 用 情形 ( 即 在 一 个 非常 小 的 组 织 范 围 内 )。 在 这 种 情形 中 ,没有 与 其 他 人 共享 数据 的 


1.7.2 ”二 层 客户 端 /服务 器 数据 库 


如 1.7.1 节 所 讨论 的 , 个 人 (单个 用 户 ) 数据 库 的 应 用 非常 有 限 。 通 常情 况 是 ， 当 一 个 
单 用 户 的 数据 库 演化 成 被 多 个 用 户 之 间 需 要 共享 的 数据 库 时 ， 个 人 数据 库 就 结束 了 。 一 个 相 
对 小 的 工作 小 组 (典型 情况 少 于 25 个 人 ) 工作 在 同一 个 项 目 或 应 用 之 上 ， 或 者 是 工作 在 一 
组 相似 项 目 或 应 用 上 。 这 些 人 员 可 能 参与 一 个 项 目的 构建 ， 或 者 是 开发 一 项 新 的 计算 机 应 
用 ， 他 们 需要 在 工作 组 中 共享 数据 。 

这 种 类 型 的 最 普遍 的 共享 数据 方法 是 如 图 1-11 所 示 的 基于 二 层 客 户 端 /服务 器 应 用 。 
每 个 工作 组 成 员 都 拥有 计算 机 ,这些 计算 机 通过 网 络 。 开发 者 1… 开 发 者 n 项 目 经 理 库 管理 员 
(有 线 的 或 无 线 的 局 域 网 [LAN]) 连接 。 在 大 多 数 情况 ”好 本 = 攻 = 攻 
下 ,每 个 计算 机 有 专用 应 用 (客户 端 ) 的 副本 , 该 应 ~ | ~ | ”| 
用 副本 提供 了 用 户 界 面 和 业务 逻辑 ， 通 过 这 个 界面 和 
业务 逻辑 数据 被 操作 。 数 据 库 本 身 和 DBMS 都 存储 在 a 
称 为 数据 库 服务 器 的 中 心 设备 上 ， 该 服务 器 也 与 网 络 工作 组 数据 库 
连接 。 这 样 ， 工 作 组 的 每 个 成 员 都 可 以 访问 共享 数据 。 图 1-11 局域网 中 的 二 层 数据 库 
不 同 的 工作 组 成 员 (如 开发 者 和 项 目 经 理 ) 对 这 个 共享 数据 库 拥有 不 同 的 用 户 视图 。 这 种 安 
排 克服 了 PC 数据 库 的 基本 对 象 ， 即 PC 数据 库 的 数据 不 易于 共享 。 可 是 ,这样 的 安排 也 带 
来 了 很 多 在 个 人 ( 单 用 户 ) 数据 库 中 不 存在 的 数据 管理 的 问题 ， 例 如 当 多 个 用 户 试 图 同时 修 
改 或 更 新 数据 时 数据 的 安全 和 数据 完整 性 问题 。 


1.7.3 ”多 层 客户 端 /服务 器 数据 库 
二 层 数据 库 体 系 结构 的 一 个 缺点 是 ， 由 于 客户 端 需要 安装 用 户 界面 逻辑 和 业务 逻辑 ， 从 
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而 客户 端的 工作 量 很 大 。 这 当然 意味 着 ， 客 户 端 计算 机 功能 要 足够 大 以 支撑 应 用 需求 。 另 外 
一 个 缺点 是 ， 无 论 是 对 用 户 界 面 还 是 业务 逻辑 进行 修改 ， 安 装 了 该 应 用 的 客户 端 计 算 机 都 需 
要 更 新 。 

为 了 克服 上 述 缺 点 ， 目 前 那些 需要 支持 大 量 用 户 的 大 多 数 应 用 都 使 用 多 层 体系 结构 的 方 
法 。 大 部 分 组 织 中 ， 这 些 应 用 都 是 打算 支持 一 个 部 (如 市 场 部 、 财 务 部 )， 或 一 个 部 门 (如 业 
务 生 产 线 )， 这 些 都 是 大 于 工作 组 的 (典型 状态 下 是 25 一 100 个 人 )。 

图 1-12 给 出 了 一 个 有 多 个 多 层 应 用 的 公司 的 例子 。 在 三 层 体 系 结构 中 ， 各 个 用 户 计 算 
机 上 有 可 访问 的 用 户 界面 。 该 界面 可 以 是 基于 Web 浏览 器 或 者 是 使 用 VB.Net，VC# 或 Java 
等 程序 设计 语言 编写 。 应 用 层 /Web 服务 器 层 包 含有 业务 逻辑 ， 完 成 用 户 提 出 的 业务 事务 。 
然后 应 用 层 再 与 数据 库 服务 器 交互 。 对 于 数据 库 开 发 来 说 使 用 多 层 客户 端 / 服 务 器 体系 结构 
的 最 大 好 处 是 易于 将 数据 库 开 发 和 维护 数据 的 模块 与 维护 信息 系统 中 业务 逻辑 和 /或 表示 逮 
辑 这 样 的 模块 分 离 。 另 外 ， 该 体系 结构 也 可 以 改进 应 用 与 数据 库 的 性 能 和 维护 。 第 8 章 中 将 
更 详细 地 讨论 二 层 和 多 层 客户 端 / 服 务 器 体系 结构 。 
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数据 库 
wa 
应 用 /Web 层 
上 应 用 /Web 服务 器 
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企业 层 门 服务 器 的 数据 汇总 
具有 DBMS 的 企业 服务 器 
图 1-12 三 层 客户 端 / 服务器 数据 库 体 系 结构 
1.7.4 企业 级 应 用 


企业 应 用 或 数据 库 是 有 关于 一 个 组 织 或 企业 的 全 部 领域 (或 者 ， 至 少 是 涉及 很 多 不 同 部 
门 )。 这 样 的 数据 库 是 打算 支持 组 织 范 围 的 操作 和 决策 制定 。 注 意 ， 一 个 组 织 可 以 有 多 个 企 
业 数 据 库 ， 因 此 这 样 的 数据 库 不 包含 所 有 组 织 的 数据 。 对 于 很 多 中 等 或 大 型 组 织 只 设计 一 个 
单独 的 操作 型 企业 数据 库 不 现实 ， 这 是 因为 对 于 一 个 非常 大 型 数据 库 的 性 能 而 言 ， 要 满足 不 
同 用 户 的 很 多 不 同 的 需求 非常 困难 ， 而 对 所 有 数据 库 用 户 完 成 一 个 单独 的 (元 ) 数据 定义 也 
非常 复杂 。 但 一 个 企业 数据 库 确 实 要 支持 来 自 很 多 部 门 和 地 区 的 信息 需求 。 企 业 数据 库 的 演 
化 导致 了 两 项 主要 开发 : 
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1 ) 企业 资源 规划 (ERP) 系统 

2 ) 数据 仓库 实现 

企业 资源 规划 ( Enterprise Resource Planning，ERP) 系统 的 发 展 源 于 20 世纪 70 年代 
和 80 年 代 的 材料 需求 计划 (MRR) 和 制造 资源 计划 (MRP- 了) 系统 。 这 些 系统 调度 制造 过 
程 中 的 原材料 、 组 件 和 组 装 需求 ， 也 调度 车 间 和 产品 分 布 活动 。 另 外 ， 扩 展 到 业务 功能 的 
其 他 部 分 就 产生 了 企业 范围 的 管理 系统 ,或 ERP 系统 。 所 有 ERP 系统 都 是 非常 依赖 于 存储 
了 综合 ERP 应 用 需求 数据 的 数据 库 。 除 了 ERP 系统 之 外 ， 一 些 专门 应 用 (如 客户 关系 管理 
(CRM) 系统 和 供应 链 管理 (SCM) 系统 等 ) 也 都 是 依赖 于 存储 在 数据 库 中 的 数据 。 

ERP 系统 工作 在 企业 的 当前 可 操作 数据 之 上 ， 而 数据 仓库 (data warehouse) 收集 各 种 可 
操作 数据 库 中 的 内 容 , 包括 人 员 、 工 作 组 、 部 门 以 及 ERP 数据 库 。 数 据 仓库 给 用 户 提供 操 
作 有 关 历 史 数 据 的 机 会 ， 以 获取 模式 和 趋势 信息 ， 为 决策 性 业务 问题 提供 答案 。 第 9 章 中 将 
详细 讨论 数据 仓库 。 

最 后 ， 对 数据 库 环境 带 来 剧烈 变化 的 是 互联 网 的 出 现 ， 从 此 应 用 开发 被 众多 用 户 使 用 。 
互联 网 被 商业 接受 后 导致 了 长 期 建立 起 来 的 商业 模式 的 重要 改变 。 即 使 是 最 成 功 的 公司 也 被 
来 自 互 联网 的 新 的 商业 模式 冲击 而 动 播 ， 这 些 新 的 商业 模式 提供 了 改进 的 客户 信息 和 服务 ， 
清除 了 传统 的 市 场 和 分 布 通道 ， 实 现 了 职工 联系 管理 。 例 如 ， 顾 客 可 以 直接 从 计算 机 制造 商 
处 订购 目 己 的 计算 机 。 网 上 飞机 票 的 竞价 以 及 秒杀 等 都 使 终端 客户 获得 了 很 大 的 收益 。 在 很 
多 公司 中 有 关 职 位 招聘 和 公司 活动 的 信息 都 可 以 从 网 上 获得 。 这 些 基于 Web 的 每 一 种 应 用 
都 使 用 了 数据 库 。 

在 前 述 的 例子 中 ， 互 联网 被 用 于 商业 与 客户 (B2C) 之 间 ， 因 为 客户 是 在 商业 之 外 。 可 是 ， 
对 于 另外 一 些 应 用 ， 商 业 的 客户 是 其 他 的 商业 。 这 一 类 交互 应 用 通常 被 称 作 是 B2B 关系 ， 是 
商业 之 间 的 应 用 。 外 联网 ( extranet) 使 用 互联 网 技术 ， 但 是 外 联网 访问 却 不 如 互联 网 那样 广 
泛 。 相 反 ， 其 访问 被 限制 到 业务 的 提供 者 和 客户 ， 二 者 达成 合法 访问 和 相互 数据 及 信息 的 使 
用 的 一 致 性 。 最 后 ， 内 联网 (intranet) 是 有 关 一 个 企业 职工 对 企业 内 部 数据 库 和 应 用 的 访问 。 

如 此 这 般 人 允许 的 商业 数据 库 的 访问 带 来 了 数据 安全 性 和 完整 性 的 问题 ， 这 是 信息 系统 管 
理 的 新 问题 。 而 传统 上 数据 在 每 一 个 企业 内 部 很 好 地 保证 了 安全 性 。 而 当 企业 利用 云 的 优 
点 时 ， 这 些 问 题 就 更 加 复杂 。 在 云 管理 中 ， 数 据 被 存储 在 不 产生 数据 的 企业 所 控制 的 服务 器 
中 。 第 8 章 中 将 进一步 讨论 这 方面 的 问题 。 

表 1-5 对 本 节 描 述 的 数据 库 应 用 类 型 做 了 一 个 简要 总 结 。 

表 1-5 数据库 应 用 汇总 


数据 库 / 应 用 类 型 典型 的 数据 库 大 小 
让 大 和 MB 
三 必 GB 
企业 资源 规划 GB ~ TB 
数据 仓库 TB ~ PB 


1.8 ” Pine Valley 家 具 公 司 数 据 库 应 用 开发 
本 章 前 面 已 经 介绍 了 Pine Valley 家 有 具 公司 。 到 20 世纪 90 年 代 后 期 ， 家 具 制 造 业 的 竞 
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争 鳃 演 印 烈 ， 新 的 竞争 者 们 比 Pine Valley 反应 更 快 ， 获 得 了 新 的 商业 机 遇 。 虽 然 这 种 发 展 
趋势 可 能 有 很 多 原由 ,但 管理 者 相信 他 们 使 用 的 计算 机 信息 系统 (基于 传统 的 文件 处 理 ) 已 
经 过 时 了 。 在 Fred McFadden 和 Jeff Hoffer 主持 的 协作 开发 会 议 后 ， 公 司 启 动 了 采用 数据 库 
方法 的 应 用 开发 项 目 。 re 进 一 个 单个 的 数据 库 结 构 中 。 而 
描述 这 些 数据 的 元 数据 也 是 在 这 同一 个 结构 中 。DBMS 为 组 织 用 户 和 数据 库 (或 多 个 数据 库 ) 
a et lest er 
问 和 更 新 。 

为 了 实现 对 数据 和 信息 的 共享 ，Pine Valley 家 具 公 司 使 用 了 局 域 网 (LAN)，LAN 将 各 
个 部 门 中 的 职工 工作 站 与 数据 库 服务 器 链接 ， 如 图 1-13 所 示 。 在 2000 年 的 初期 ， 公 司 通过 
两 个 阶段 引入 了 互联 网 技术 。 首 先 ， 为 改进 公司 之 间 的 通信 和 决策 制定 ， 使 用 了 内 联网 ， 从 
而 允许 职工 快速 地 基于 Web 访问 公司 信息 ， 包 括 电 话 目录 、 家 具 设 计 说 明 、e-mail 等 。 进 
一 步 ，Pine Valley 家 具 公 司 添加 了 对 它 的 业务 应 用 的 Web 界面 ， 例 如 订单 人 口 ， 这 样 更 多 
需要 访问 数据 库 服务 器 数据 的 内 部 业务 活动 也 可 以 被 职工 通过 内 联网 使 用 。 可 是 ， 大 部 分 
需要 使 用 数据 库 服务 器 的 应 用 仍然 没有 Web 界面 ， 这 些 应 用 还 需要 被 存储 在 职工 的 工作 
于 上 


会 计 





运行 TCP/P 全 < 
的 Web 服务 器 | 


Web 到 数据 库 
中 间 件 


数据 库 


图 1-13 ”Pine Valley 家 具 公司 的 计算 机 系统 
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1.8.1 Pine Valley 家 具 公 司 数据 库 的 演化 


好 的 数据 库 本 身 是 可 以 演化 的 ! Helen Jarvis 这 位 Pine Valley 家 庭 办 公家 具 产 品 的 主管 了 
解 到 该 产品 线 竞 争 已 经 很 激烈 。 于 是 ，Hellen 能 够 更 加 细致 地 分 析出 它 的 产品 销售 状况 对 Pine 
Valley 家 具 公 司 非常 重要 。 通 常 这 些 分 析 是 特殊 ( ad hoc) 类 型 ， 是 由 迅速 变化 而 且 没 有 预期 
的 业务 条 件 、 来 自 于 家 具 库 存 管 理 员 的 解释 、 商 业 部 门 的 新 闻 或 个 人 经 验 所 驱动 。Helen 需 
要 以 方便 使 用 的 界面 直接 访问 销售 数据 ， 这 样 她 就 能 查找 对 她 所 需要 的 各 种 市 场 问 题 的 回答 。 

Chris Martin 是 Pine Valley 家 具 公 司 信 息 系 统 开发 领域 的 系统 分 析 员 。Chris 已 经 在 
Pine Valley 家 具 公 司 工 作 了 5 年 具有 了 Pine Valley 中 多 个 业务 领域 信息 系统 的 工作 经 验 。 

由 于 Pine Valley 家 具 公司 在 它 的 系统 开发 中 很 小 心 ， 特 别 是 在 采用 了 数据 库 方法 之 后 ， 
该 公司 已 经 拥有 文 持 其 可 操作 业务 功能 的 数据 库 。 这 样 ，Chris 就 可 以 从 已 存在 的 数据 库 中 
为 Helen 抽取 数据 。Pine Valley 的 信息 系统 体系 结构 调用 Helen 需要 的 系统 ， 创 建成 为 一 个 
独立 的 数据 库 。 这 样 ， 非 结构 化 的 或 非 预期 的 数据 使 用 不 影响 对 支持 有 效 事务 处 理 系统 的 可 
操作 数据 库 的 访问 。 

进一步 说 ， 由 于 Helen 的 需要 是 数据 分 析 而 不 是 创建 和 维护 ， 是 个 性 化 的 而 不 是 企业 
性 的 ， 所 以 Chris 决定 采用 原型 和 生命 周期 相 结合 的 方法 来 开发 Helen 需求 的 系统 。 这 就 意 
味 痢 Chris 将 遵循 所 有 生命 周期 的 步 又， 但 将 重点 关注 整合 原型 的 步 又。 于 是 ， 他 将 快速 地 
进入 项 目 规划 ， 然 后 使 用 重复 分 析 、 设 计 与 实现 周期 紧密 地 与 Helen 协作 ， 开 发 她 需要 的 
系统 的 工作 原型 。 因 为 该 系统 是 个 性 化 的 ， 其 所 需要 的 数据 库 内 容 有 限 ，Chris 希望 该 原型 
能 与 Helen 所 希望 的 实际 系统 匹配 。Chris 选择 使 用 微软 的 Access 来 开发 系统 ， 这 也 是 Pine 
Valley 喜欢 使 用 的 创建 个 人 数据 库 的 技术 。 


1.8.2 项 目 规划 


Chris 从 访问 Helen 开始 项 目 开 发 。Chris 询问 Helen 的 业务 领域 ， 记 录 其 业务 领域 的 
目标 、 业 务 功 能 、 数 据 实 体 类 型 以 及 她 涉及 的 相关 的 业务 对 象 。 这 一 阶段 ，Chris 更 多 的 是 
倾听 ， 从 而 集中 精力 理解 Helen 的 业务 领域 ， 偶 尔 捅 话 中 断 Helen 的 叙述 ， 只 是 为 了 确认 
Hellen 的 叙述 是 否 讲 清 她 需要 从 信息 系统 中 获取 的 报告 和 计算 机 屏幕 上 的 内 容 。Chris 尽 可 
能 地 使 用 业务 和 市 场 术语 提出 一 般 性 问题 。 例 如 ，Chris 询问 Helen 管理 家 庭 办 公 产 品 时 会 
面临 什么 样 的 问题 ， 什 么 样 的 人 群 、 地 点 以 及 事情 是 她 工作 中 感 兴 趣 的 ， 她 所 需要 的 分 析 数 
据 的 反馈 时 间 是 多 少 ， 她 对 业务 中 什么 样 的 事件 是 有 兴趣 的 。Chris 特别 关注 Helen 的 目标 
以 及 她 感 兴趣 的 数据 实体 。 

Chris 再 一 次 与 Helen 谈话 之 前 必须 做 出 两 个 快速 分 析 。 首 先 ， 他 和 需要 标识 所 有 包含 
Helen 提 到 的 数据 实体 的 数据 库 。 根 据 这 些 数据 库 ， 给 出 一 个 列表 ， 列 出 数据 实体 的 所 有 数 
据 属 性 ， 这 些 都 是 他 认为 Helen 在 其 家 庭 办 公 产 品 的 市 场 分 析 工 作 中 感 兴趣 的 。Chris 在 以 
前 开发 Pine Valley 的 标准 销售 跟踪 和 预测 系统 以 及 成 本 计算 系统 项 目 中 的 经 历 有 助 于 理解 
Helen 需要 的 数据 。 例 如 ， 从 对 每 个 办 公家 有 具 产品 超越 销售 目标 的 目的 猜测 ，Helen 希望 在 
其 系统 中 包含 产品 年 度 销售 目标 。 同 样 ， 至 少 完成 8% 的 年 度 销 售 增 长 的 目标 意味 着 前 一 年 
每 个 产品 的 订单 需要 包含 在 内 。 他 还 得 出 结论 ，Helen 的 数据 库 必 须 包 含 所 有 产品 ， 而 不 仅 
仅 是 办 公家 具 ， 因 为 她 要 与 其 他 产品 比较 。 可 是 ， 他 也 可 以 清除 每 个 数据 实体 上 的 很 多 数据 
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属性 。 例 如 ，Helen 不 需要 各 种 客户 数据 ， 如 地 址 、 电话 号 码 、 联系 人 、 商店 大 小 以 及 销售 
人 员 。Chris 要 包含 少量 附加 属性 ， 如 客户 类 型 和 邮政 编码 ， 他 相信 这 些 在 销售 预测 系统 中 
很 重要 。 

其 次 ， 从 这 个 列表 中 ，Chris 绘制 出 概念 数据 模型 (图 1-14 )， 表 示 数 据 实 体 以 及 这 些 实 
体 间 的 主要 联系 。 数 据 模型 用 实体 -联系 (E-R) 模型 的 标记 方法 给 出 。 有 关 这 个 模型 的 标 


记 方 法 在 第 2 章 和 第 3 章 中 还 要 进一步 讨论 。 
Includes 













Ah 
PRODUCT 
ls Billed On 


INVOICE 外 PAYMENT 


图 1-14 家庭 办 公 产 品 线 市 场 支 持 系统 的 初始 数据 模型 








Is Paid On 





1.8.3 数据 库 需 求 分 析 


在 举行 下 一 次 讨论 会 议 之 前 ，Chris 将 给 Helen 发 送 一 份 粗略 的 项 目 计 划 ， 该 计划 列 出 
了 他 实施 计划 的 步骤 以 及 每 一 步 预 计 要 花费 的 时 间 。 因 为 原型 是 用 户 驱 动 的 过 程 ， 是 由 用 户 
确定 什么 时 候 终 止 新 原型 版 本 的 迭代 ， 所 以 Chris 仅仅 能 提供 项 目的 关键 步骤 中 大 致 估计 的 
时 间 。 

在 第 二 次 会 议 上 ，Chris 说 了 很 多 , 但 他 主要 关注 Helen 对 他 提出 的 有 关 数 据 库 应 用 初 
步 思 考 的 反应 。 他 技术 性 地 对 图 1-14 中 的 每 个 数据 实体 做 出 解释 ， 说明 它 的 含义 ， 解 释 在 
实体 之 间 的 每 条 连 线 所 表达 的 业务 原则 和 处 理 过 程 。 

他 总 结 的 几 条 规则 列举 如 下 : 

1 ) 每 个 CUSTOMER 将 设置 ( Places) 任意 数量 的 ORDER。 反 过 来 ， 每 个 ORDER 只 
能 对 应 某 一 个 CUSTOMER。 

2 ) 每 一 个 ORDER 包含 ( Contains) 有 任意 数量 的 ORDER LINE。 反 之 ， 每 个 ORDER 
LINE 仅仅 被 包含 在 某 一 个 ORDER 中 。 

3 ) 每 个 PRODUCT 可 以 有 (Has) 任意 数量 的 ORDER LINE。 反 之 ， 每 个 ORDER 
LINE 仅仅 只 能 服务 于 某 一 个 PRODUCT。 

4 ) 每 个 ORDER 只 能 开 一 张 收据 发 票 (INVOICE)， 并 且 ， 每 张 INVOICE 也 只 能 对 应 
一 个 ORDER。 

这 里 Places 、Contains 以 及 Has 被 称 作 一 对 多 联系 ， 因 为 ， 例如， 一 个 客户 可 能 潜在 地 
有 多 个 订单 ， 而 每 个 订单 只 对 应 具体 某 一 个 客户 。 

除了 联系 之 外 ，Chris 还 向 Helen 详细 展示 每 个 实体 具有 的 数据 属性 。 例 如 ， 订 单 号 码 
(ORDER Number) 唯一 地 标识 一 个 订单 。 此 外 ，Chris 认为 Helen 想 要 在 ORDER 中 含有 关 
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于 订单 何 时 开始 的 日 期 以 及 订单 何 时 被 供应 的 日 期 (这 也 是 订单 上 商品 被 运送 的 最 新 日 期 )。 
Chris 还 将 解释 付款 日 期 (Payment Date) 属性 是 指 客户 付款 的 最 新 日 期 ， 这 个 球 额 也 许 是 该 
订单 的 全 额 ， 也 可 能 是 部 分 金额 。 

对 于 Helen 对 该 数据 模型 的 反应 ，Chris 询问 Helen 将 打算 如 何 使 用 她 想 要 的 数据 。 
Chris 此 时 并 不 试图 能 完全 清楚 ， 因 为 他 知道 Helen 还 没有 在 正在 开发 的 信息 集合 上 工作 
过 ， 因 此 ， 她 还 不 能 确定 她 所 要 的 数据 是 什么 ， 或 者 说 她 也 不 清楚 将 对 这 些 数据 做 什么 。 此 
时 ，Chris 的 目标 是 理解 Helen 打算 使 用 这 些 数据 的 几 种 方式 ， 这 样 他 能 开发 出 一 个 初始 原 
型 ， 包 括 数 据 库 和 数 个 计算 机 显示 或 报表 。Helen 和 Chris 最 后 一 致 同 意 的 属性 列表 如 表 1-6 
所 示 。 


表 1-6 实体 的 数据 属性 (Pine Valley 家 具 公 司 ) 
实体 类 型 属性 
Order Placement Date 
Customer Wy Order Fulfillment Date 
Order Number of Shipments 
Customer ldentifier 
Ordered Product | Order Number 
Product Identifier 
Order Quantity 
Product . lnvoice Number 
Payment Payment Date 


Product Line 
Product Line Prior Year Sales Goal Wr 
Product Line Current Year Sales Goal | 


Payment Amount 


1.8.4 数据 库 设 计 


因为 Chris 遵循 的 是 原型 开发 方法 ， 并 且 前 两 次 与 Helen 的 会 话 很 快 确定 了 Helen 可 能 
需要 的 数据 ， 所 以 Chris 准备 建立 一 个 原型 系统 。 他 的 第 一 步 是 创建 一 个 如 图 1-15 所 示 的 项 
目 数 据 模 型 。 注 意 这 个 项 目 数据 模型 的 特征 如 下 : 

1 ) 这 是 一 个 组 织 模型 ， 它 给 出 了 有 关 该 组 织 功 能 的 有 价值 信息 以 及 重要 的 约束 。 

2 ) 该 项 目 数据 模型 聚焦 在 实体 、 联 系 和 业务 规则 。 它 也 包含 了 每 个 数据 片段 的 属性 标 
记 ， 这 些 将 存储 在 每 个 实体 中 。 

第 二 步 ，Chris 将 该 数据 模型 转换 为 一 组 表 ， 表 中 的 列 是 数据 属性 ， 行 是 这 些 属性 值 
的 不 同 集合 。 表 是 关系 数据 库 的 基本 组 成 (在 第 4 章 中 将 学 习 有 关 概 念 )， 这 里 使 用 微软 
Access 的 数据 库 描述 方式 。 图 1-16 给 出 了 4 个 表 的 样本 数据 : Customer，Product，Order， 
Orderline。 这 些 表 代表 了 图 1-15 中 的 4 个 实体 。 表 中 的 每 一 列 代 表 了 实体 的 一 个 属性 〈 或 
特征 )。 例 如 ，Customer 的 属性 CustomerID 和 CustomerName。 表 中 的 每 一 行 代 表 了 实体 的 
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一 个 实例 (或 值 ) 。 数 据 库 设计 还 需要 Chris 指明 格式 或 性 质 ， 对 于 每 一 个 属性 (微软 Access 
称 为 属性 字段 ( field))。 这 里 的 这 些 设计 的 决定 是 容易 的 ， 因 为 大 多 数 属 性 都 已 经 在 相应 的 
数据 字典 中 说 明 。 


CUSTOMER 
Customer ID 


PRODUCT LINE 
Product Line Name 


Customer Name 
Customer Type 
Customer Zip Code 
Customer Years Includes 


PL Prior Years Sales Goal 
PL Current Years Sales Goal 





Places 
人 小 





ORDER ORDER LINE PRODUCT 
Order Number Contains 1 QOrder Number Product ID 
Order Placement Date 了 ProductID Product Description 
Order Fulfillment Date Order Quantity Product Finish 
Order Number of Shipments Product Standard Price 
Product Cost 
ls billed on PR Prior Years Sales Goal 


PR Current Year Sales Goal 





INVOICE PAYMENT 
Invoice Number ls paid on | Invoice Number 
Payment Date 
Payment Amount 


/ 


Order Number 
Invoice Date 





图 1-15 家 庭 办 公 产 品 线 市 场 文 持 系统 的 项 目 数据 模型 


图 1-16 中 显示 的 表 是 用 SQL 创建 的 (第 6 章 和 第 7 章 中 将 学 习 SQL)。 图 1-17 和 
图 1-18 给 出 了 Chris 可 能 使 用 的 创建 ProductLine 和 Product 表 结 构 的 SQL 语句 。 习 惯 上 ， 
表 名 后 加 后 缀 _T。 另 外 要 注意 的 是 ，Access 不 允许 在 名 字 中 加 空格 ， 来 自 数据 模型 的 属 
性 此 时 都 被 拼接 成 一 个 单个 的 字 。 因 此 ， 数 据 模型 中 的 Product Description 在 表 中 变 成 了 
ProductDescription。Chris 在 完成 这 样 的 转换 时 要 使 每 个 表 有 一 个 属性 ， 称 作 表 的 “主键 ”， 
它 能 够 区 分 表 中 的 每 一 行 。 表 的 其 他 主要 性 质 是 表 中 每 一 行 的 每 个 属性 仅 有 一 个 值 ， 如 果 知 
道 了 标识 符 属 性 的 值 ， 那 么 就 能 确定 一 行 中 其 他 属性 的 值 。 例 如 ， 对 于 任何 一 条 产品 线 ， 仅 
仅 有 一 个 值 对 应 当前 年 的 销售 目标 。 

关系 模型 的 最 后 一 个 关键 特征 是 它 通过 存储 在 对 应 表 中 列 的 值 来 表示 实体 之 间 的 联系 。 
例如 ，CustomerID 是 表 Customer 和 表 Order 中 的 共有 属性 。 这 样 ， 就 可 以 方便 地 将 订单 与 
其 关联 的 客户 链接 。 例 如 ，OrderID 1003 与 CustomerID 1 关联 。 你 能 确定 哪 一 个 ProductID 
与 OrderID 1004 关联 吗 ? 在 第 6 章 和 第 7 章 中 ， 将 学 习 如 和 何 用 SQL 在 这 些 表 中 检索 数据 。 

Chris 对 数据 库 设计 还 要 做 出 的 决策 是 ， 如 何 物理 地 组 织 数据 库 以 便 能 尽快 啊 应 Helen 
将 要 给 出 的 查询 。SQL 中 允许 数据 库 设 计 者 可 以 做 的 关键 的 物理 数据 库 设计 决策 是 在 哪个 属 
性 上 创建 索引 。 所 有 主键 属性 (如 表 Order_T 中 的 OrderNumber) 表 中 各 行 具 有 唯一 性 
的 值 一 一 都 建 索引 。 除 此 之 外 ，Chris 使 用 一 般 性 的 指导 规则 : 对 于 任何 具有 10 个 以 上 不 同 
值 的 属性 且 Helen 有 可 能 用 它 分 段 数据 库 的 属性 创建 索引 。 
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CustomerName 

lcContemporary Casuals 

2 Value Furniture 

3 Home Fumishings 

4 Eastern Furnlture 

5 impressions 

6 Furniture Gallery 

7 Penod Furniture 

8 Calfornis Classics 

9 M and H Casual Fumiture 
10 Seminole Interiors 
il American Euro Lfestyles 
12 Battie Creek Furniture 
13 Hemtage Furnishings 
14 Kaneohe Homes 

15 Mountain Scenes 
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CREATE TABLE ProductLine T 
(ProductLinelD VARCHAR (40) NOT NULL PRIMARY KEY, 
PlPriorYearGoal DECIMAL, 


PlCurrentYearGoal DECIMAD; 





图 1-17 ProductLine 表 的 SQL 定义 


CREATE TABLE Product T 

(ProductID NUMBER(11,0) NOT NULL PRIMARY KEY 
ProductDescription VARCHAR (50), 

ProductFinish VARCHAR (20), 

ProductStandardPrice DECIMAL(6,2), 

ProductCost DECIMAL， 

ProductPriorYearGoal DECIMAL， 

ProductCurrentYearGoal “DECIMAL， 

ProductLinelD VARCHAR (40), 





FOREIGN KEY (ProductLinelD) REFERENCES ProductLine_T (ProductLinelD)); 


图 1-18 ”Product 表 的 SQL 定义 
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1.8.5 ”使 用 数据 库 


Helen 将 使 用 Chris 创建 的 数据 库 ， 主 要 目的 是 解决 特殊 ( ad hoc) 问题 。 于 是 Chris 对 
Helen 进行 培训 ， 以 使 她 能 够 访问 数据 库 ， 且 构建 查询 以 回答 她 的 特殊 问题 。Helen 已 经 给 
出 了 一 些 标准 的 她 期 望 周 期 性 提出 的 问题 。Chris 将 开发 数 个 预 编写 类 型 的 程序 (表格 、 报 
告 、 查 询 ) 以 方便 地 回答 Helen 的 这 些 标准 问题 (这样 她 不 需要 再 为 这 些 问 题 从 头 编写 程 
序 )。Helen 想 要 的 标准 信息 集 之 一 是 ， 在 家 庭 办 公 产 品 线 中 每 个 产品 的 列表 ， 显 示 出 每 个 
产品 相对 于 当前 年 销售 目标 的 日 期 的 总 销售 量 。Helen 可 能 想 让 这 个 查询 结果 按 更 加 时 尚 的 
风格 展示 ， 如 使 用 报表 ， 但 此 时 Chris 仅仅 以 查询 的 方式 提供 给 Helen。 


SELECT Product.ProductlD, Product.ProductDescription, Product.PRCurrentYearSalesGoal, 


(OrderQuantity * ProductPrice) AS SalesToDate 
FROM Order.OrderLine, Product.ProductLine 
WHERE Order.OrderNumber = OrderLine.OrderNumber 
AND Product.ProductlD = OrderedProduct.ProductIiD 
AND Product.ProductiD = ProductLine.ProductiD 


AND Product.ProductLineName = “Home Office” 





图 1-19 ”家庭 办 公 销 售 与 目标 比较 的 SQL 查询 


产生 这 个 产品 列表 的 查询 在 图 1-19 中 给 出 ， 图 1-20 给 出 了 这 个 查询 结果 的 输出 样 
本 。 图 1-19 的 查询 是 用 SQL 编写 的 ， 该 查询 中 你 可 见 到 6 个 标准 SQL 语句 中 的 3 个 : 
SELECT，FROM 和 WHERE。SELECT 表明 在 结果 中 要 显示 的 属性 。 这 里 对 应 于 "Sales to 
Date" 标签 的 是 一 个 计算 公式 。FROM 表明 检索 数据 将 要 访问 的 表 。WHERE 定义 了 表 之 间 
的 链接 ， 并 表明 其 结果 数据 仅仅 来 自 于 家 庭 办 公 产 品 线 上 的 数据 。 对 于 这 个 例子 ， 仅 仅 只 包 
括 有 限 的 数据 ， 因 此 在 图 1-20 中 的 总 销售 结果 是 相当 小 的 ， 但 是 这 个 格式 展示 的 是 图 1-19 
中 的 查询 结果 。 


rr 


ry 
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图 1-20 ”家庭 办 公 产 品 线 销 售 比较 


这 时 Chris 准备 与 Helen 再 次 会 面 ， 以 了 解 这 个 开始 实现 的 原型 是 否 满足 她 的 需求 。 
Chris 向 Helen 展示 了 系统 。 根 据 Helen 给 出 的 建议 ，Chris 可 以 在 线 地 做 少量 修改 ,但 是 对 
于 Helen 的 很 多 目标 Chris 必须 在 之 后 小 心地 完成 。 

本 书 的 篇 幅 不 允许 我 们 在 此 回顾 家 庭 办 公 市 场 支 持 系 统 项 目 开 发 的 全 部 过 程 。Chris 与 
Helen 举行 了 十 多 次 协商 会 议 ， 直 至 Helen 满意 数据 库 中 拥有 她 需要 的 所 有 属性 ，Chris 为 其 
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32 ”党 一 部 分 涩 据 庆 党 理 的 上 下 广 


编写 的 标准 查询 、 表 格 、 报 告 对 Helen 很 和 和 用， 而 且 她 懂得 如 何 编写 不 可 预知 问题 的 查询 。 
Chris 还 要 能 在 Helen 使 用 该 系统 过 到 问题 时 随时 给 以 帮助 与 支持 ， 包 括 编写 更 复杂 的 查询 、 
表格 或 报告 等 。Chris 和 Helen 做 出 的 最 终 决定 是 ， 最 终 原型 的 性 能 足够 有 效 ， 因 此 这 样 的 
原型 系统 不 需要 重新 编写 和 重新 设计 。 现 在 Helen 准备 去 使 用 这 个 系统 。 


1.8.6 ”管理 数据 库 


家 庭 办 公 市 场 支持 系统 的 管理 相当 简单 。Helen 决定 每 周 从 Pine Valley 的 可 操作 数据 库 
中 下 载 新 的 数据 到 她 的 微软 Access 数据 库 中 。Chris 用 C# 编写 了 一 个 舱 套 的 SQL 命令 完成 
从 协作 数据 库 中 抽取 数据 的 工作 ， 再 用 Visual Basic 编写 了 一 个 Access 程序 完成 从 抽取 的 数 
据 中 重建 Access 表 的 任务 。 他 将 此 工作 安排 在 每 个 周 日 的 夜晚 执行 。Chris 还 更 改 了 协作 信 
息 系 统 体系 结构 模型 ， 以 包括 家 庭 办 公 市 场 支持 系统 。 这 一 步 非常 重要 ， 因 为 这 样 就 可 以 在 
包含 于 Helen 系统 的 数据 的 格式 改变 时 ， 协 作 的 CASE 工具 能 够 通知 Chris 改变 她 系统 中 的 


1.8.7 ” Pine Valley 数据 库 的 未 来 


虽然 Pine Valley 目前 已 存在 的 数据 库 合适 地 支持 公司 的 日 常 操作 ,但 是 如 同 Helen 所 提 
出 的 要 求 表明 ， 当 前 的 数据 库 浓 常 不 适 于 决策 支持 应 用 。 例 如 ， 下 面 列 举 了 一 些 不 易 从 当前 
数据 库 得 到 回答 的 问题 : 

1 ) 与 去 年 同期 相 比 今年 家 具 销 售 的 模式 是 什么 ? 

2 ) 谁 是 我 们 最 大 的 前 10 位 客户 ， 他 们 购买 的 模式 是 什么 ? 

3 ) 为 什么 不 能 方便 地 获取 任何 一 个 客户 通过 不 同 销售 渠道 的 订购 视图 ， 而 只 能 查看 单 
个 客户 的 每 一 个 订购 合同 ? 

为 了 回答 上 述 或 其 他 问题 ， 企 业 常 常 需要 构建 一 个 单独 的 包含 有 历史 和 汇总 信息 的 数 
据 库 。 这 样 的 数据 库 通 常 称 为 数据 仓库 ( data warehouse)， 或 有 时 也 称 作 数据 集 市 ( data 
mart)。 同 样 ， 分 析 人 员 需 要 专门 的 决策 支持 工具 来 查询 和 分 析 访 数据库。 用 于 此 目的 的 这 
类 工具 之 一 是 联机 分 析 处 理 (OLAP) 工具 。 第 9 章 将 讨论 数据 仓库 、 数 据 集 市 以 及 相关 决 
策 支持 。 在 那 一 章 中 将 学 习 到 Pine Valley 家 具 公 司 目 前 正在 构建 的 数据 仓库 的 感 兴趣 问题 。 


总 结 


过 去 的 20 年 中 ,数据 库 应 用 的 数量 和 重要 性 不 断 增长 。 数 据 库 被 用 于 存储 、 操 作 和 检 
索 每 个 企业 组 织 中 的 数据 。 在 当今 激烈 的 竞争 环境 中 ， 有 证 据 表 明 数 据 库 技术 将 更 显 其 重要 
性 。 现 代数 据 库 管理 课程 是 信息 系统 课程 体系 中 最 重要 的 课程 之 一 。 

数据 库 是 组 织 起 来 的 逻辑 相关 数据 集合 。 我 们 定义 数据 ( data) 是 用 户 环境 中 有 意义 和 
重要 的 对 象 和 事件 的 存储 表示 。 信 息 是 被 处 理 的 数据 ， 该 处 理 使 得 人 们 使 用 该 数据 的 知识 得 
到 了 增加 。 数 据 和 信息 都 可 以 被 存储 在 数据 库 中 。 

元 数据 是 描述 终端 用 户 数据 的 性 质 与 特性 以 及 数据 上 下 文 的 数据 。 数 据 库 管 理 系统 
( DBMS) 是 用 于 创建 和 维护 用 户 数 据 库 ， 并 提供 对 用 户 数据 库 受 控 访 问 功能 的 软件 系统 。 
DBMS 以 知识 的 形式 存储 元 数据 ， 是 所 有 数据 定义 、 数 据 联 系 、 屏 幕 显示 、 报 告 格式 和 其 他 
系统 组 成 的 中 心 仓库 。 
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计算 机 文件 处 理 系 统 在 早期 计算 机 时 代 即 已 被 发 展 ， 因 此 计算 机 可 以 存储 、 操 作 和 检索 
大 的 数据 文件 。 这 些 系统 (目前 仍 被 使 用 ) 具有 很 大 的 局 限 性 ， 例 如 程序 与 数据 的 相关 性 、 
数据 元 余 、 有 限 的 数据 共享 、 较 长 的 开发 时 间 等 。 数 据 库 方法 是 为 了 克服 这 些 局 限 而 开发 出 
来 的 。 数 据 库 方法 强调 组 织 中 数据 的 综合 与 共享 。 该 方法 的 优点 包括 程序 -数据 独立 、 改 进 
的 数据 共享 、 最 少 的 数据 元 余 、 改 进 的 应 用 开发 效率 等 。 

数据 库 应 用 可 以 分 成 如 下 几 类 : 个 人 数据 库 、 二 层 数据 库 、 多 层 数 据 库 和 企业 数据 库 。 
企业 数据 库 包 括 数据 仓库 和 整合 的 决策 支持 数据 库 ， 其 内 容 从 各 个 可 操作 数据 库 中 导出 。 企 
业 资 源 规 划 (ERP) 系统 主要 依赖 于 企业 数据 库 。 现 代数 据 库 及 其 应 用 可 以 位 于 多 个 计算 机 
上 。 虽 然 可 以 存在 任意 层次 (1 到 多 ) 数据 库 ， 但 与 客户 端 /服务 器 体系 结构 相关 的 三 层 数 
据 库 处 理 是 : (1) 客户 端 层 ， 为 用 户 展 示 数 据 库 内 容 ; (2 ) 应 用 /Web 服务 器 层 ， 分 析 数 
据 库 内 容 和 管理 用 户 会 话 ; (3 ) 企业 服务 器 层 , 来 自 组织 各 个 方面 的 数据 合并 成 该 组 织 的 
资产 。 

数据 库 开 发 从 企业 数据 建 模 开始 ， 在 这 个 阶段 组 织 数据 库 的 范围 和 一 般 内 容 被 建立 。 除 
了 数据 实体 本 身 之 间 的 联系 之 外 ， 与 其 他 组 织 规划 对 象 之 间 的 联系 〈 如 组 织 单位 、 位 置 、 业 
务 功能 以 及 信息 系统 等 ) 也 必须 建立 。 数 据 实 体 间 的 联系 和 与 其 他 组 织 规 划 对 象 间 的 联系 可 
以 用 高 层 的 规划 和 矩阵 表示 ， 它 能 够 被 操作 以 理解 联系 的 模式 。 一 旦 对 数据 库 的 需求 被 认识 ， 
不 论 是 来 自 规划 练习 还 是 来 自 特 定 的 请 求 (如 家 庭 办 公 市 场 支持 系统 中 Helen Jarvis 提出 的 
那样 )， 都 应 组 织 一 个 课题 组 去 开发 所 有 的 元 素 。 课 题 组 遵循 系统 开发 过 程 ， 如 系统 开发 生 
命 周 期 (SDLC) 或 原型 方法 。SDLC 可 以 用 5 个 步骤 表示 :(1) 规划 , (2) 分 析 , (3 ) 设计 ， 
(4 ) 实现 , (5 ) 维护 。 数 据 库 开发 活动 在 这 些 重 全 的 阶段 上 发 生 ， 可 以 发 生 反 馈 以 使 课题 返 
回 到 前 一 个 阶段 。 在 原型 方法 中 ， 数 据 库 和 其 应 用 在 系统 开发 者 与 用 户 紧 密 的 交互 过 程 中 迭 
代 地 进行 优化 。 当 数据 库 应 用 较 小 而 独立 且 用 户 数 也 不 大 的 情况 下 ， 原 型 方法 比较 好 。 

数据 库 开 发 项 目的 工作 对 于 数据 库 要 处 理 三 种 视图 或 模式 : (1 ) 概念 模式 ， 提 供 一 个 完 
全 的 、 技 术 独 立 的 数据 库 结 构 ;( 2 ) 内 模式 ， 用 逻辑 模式 和 物理 模式 的 术语 描述 存储 在 计算 
机 二 级 存储 器 上 的 整个 数据 库 结 构 ; ( 3 ) 外 模式 或 用 户 视 图 ， 用 与 企业 数据 模型 结合 的 用 户 
视图 的 术语 描述 与 特定 的 用 户 (组 ) 相关 的 数据 库 。 

本 章 以 回顾 Pine Valley 家 具 公 司 的 数据 库 开 发 项 目 结 束 。 该 系统 支持 家 庭 办 公家 具 生 
产 线 的 市 场 需求 ， 描 述 了 使 用 个 人 数据 库 管 理 系统 和 SQL 编码 来 开发 一 个 只 检索 的 数据 
库 。 该 应 用 中 的 数据 库 包 含 了 从 企业 数据 库 抽取 的 数据 ， 然 后 将 其 存放 在 一 个 独立 的 客户 
层 数据 库 中 。 因 为 用 户 〈 Helen Jawis) 的 需求 相当 非 结 构 化 ， 该 系统 需要 通过 多 次 迭代 地 开 
发 和 优化 处 理 ， 所 以 使 用 了 原型 开发 方法 。 另 外 ， 她 与 Chris 紧密 工作 的 兴趣 和 能 力也 是 有 
限 的 。 


关键 术语 
Agile software development (敏捷 软件 开发 ) Constraint (约束 ) 
Computer-aided software engineering ( CASE ) Data (数据 ) 

tools (计算 机 辅助 软件 工程 (CASE) 工具 ) Data administration (数据 管理 ) 


Conceptual schema (概念 模式 ) Data independence (数据 独立 ) 
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Data model (数据 模型 ) 

Data warehouse (数据 仓库 ) 

Database (数据 库 ) 

Database administration (数据 库 管理 ) 
Database application (数据 库 应 用 ) 


Information (信息 ) 

Logical schema (逻辑 模式 ) 
Metadata (元 数据 ) 

Physical schema (物理 模式 ) 
Prototyping (原型 法 ) 


Database management system (DBMS ， 数 据 库 管 Relational database (关系 数据 库 ) 





























理 系 统 ) Repository (知识 库 ) 
Enterprise data modeling (企业 数据 建 模 ) Systems development life cycle( SDLC， 系 统 开 
Enterprise resource planning (ERP， 企 业 资 源 规 划 ) 发 生命 周期 ) 
Entity (实体 ) User view (用 户 视 图 ) 
复 习题 
1. 定义 如 下 术语 : 
a. 数据 b.， 信息 
c. 元 数据 d. 数据 库 应 用 
e. 数据 仓库 ff， 约束 
g. 数据 库 h， 实 体 
i. 数据 库 管 理 系 统 j. 客户 端 /服务 器 体系 结构 
k. 系统 开发 生命 周期 (SDLC) 1。 敏捷 软件 开发 
m. 企 业 数 据 模 型 n.， 概念 数据 模型 
o. 逻辑 数据 模型 p. 物理 数据 模型 
2. 将 下 面 的 术语 与 定义 配对 : 
数据 a. 上 下 文 或 汇总 的 数据 
数据 库 应 用 b.， 应 用 程序 
约束 c. 事实、 文本、 图形、 图 像 等 
知识 库 d. 显示 一 个 组 织 的 高 层 实体 和 实体 间 联 系 的 图 形 化 模型 
元 数据 e. 相关 数据 的 组 织 化 集合 
数据 仓库 f， 包含 数 据 定义 和 约束 
言 息 g， 对 所 有 数据 定义 的 集中 化 的 存储 仓库 
用 户 视 图 h. 分 离 数据 描述 和 程序 
数据 库 管 理 系统 i， 集 成 企业 所 有 功能 的 业务 管理 系统 
数据 独立 j. 部 分 数据 库 的 逻辑 描述 
数据 库 k， 用 于 创建 、 维 护 和 提供 对 用 户 数据 库 的 控制 访问 的 软件 应 用 
企业 资源 规划 (ERP) 1 数据库 用 户 不 能 违背 的 规则 
系统 开发 生命 周期 (SDLC) m. 集成 的 决策 支持 数据 库 
原型 方法 n， 企 业 数 据 模型 和 多 重用 户 视 图 的 组 成 
企业 数据 模型 0o， 快捷 的 系统 开发 方法 
概念 模式 p. 由 两 种 数据 模型 组 成 : 逻辑 模型 和 物理 模型 
内 模式 q， 业务 数据 的 综合 描述 
外 模式 r.， 结构 化 的 一 个 步骤 跟着 一 个 步骤 的 系统 开发 方法 
3. 比较 如 下 术语 : 


b. 结构 化 数据 ; 非 结 构 化 数据 
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c. 数据 ; 信息 d. 知识 库 ; 数据 库 

e. 实体 ; 企业 数据 模型 人 数据 仓库 ; ERP 系统 

g. 二 层 数据 库 ; 多 层 数据 库 h. 系统 开发 生命 周期 ， 原 型 方法 
i. 企业 数据 模型 ， 概 念 数据 模型 j. 原型 方法 ; 敏捷 软件 开发 


.列举 文件 处 理 系统 的 5 个 缺点 。 

. 列举 数据 库 系统 环境 中 的 9 个 主要 组 成 。 

， 在 关系 数据 库 中 表 之 间 的 联系 如 何 表达 ? 

. 数据 独立 术语 的 含义 是 什么 ? 为 什么 说 它 是 一 个 重要 的 目标 ? 

.列举 10 个 数据 库 方 法 优 于 传统 文件 的 好 处 。 

.列举 5 个 与 数据 库 方法 关联 的 成 本 和 风险 。 

、 定义 三 层 数 据 库 体系 结构 。 

， 在 三 层 数 据 库 体 系 结构 中 ， 是 否 有 可 能 存在 没有 数据 库 的 层 ? 如 果 不 能 ,给 出 理由 ， 如 果 能 ， 给 


出 例子 。 


.给 出 传统 系统 开发 生命 周期 (SDLC) 的 5 个 阶段 的 名 字 ， 并 且 解 释 每 个 阶段 的 目标 和 生成 物 。 
. 在 SDLC 的 5 个 阶段 中 ， 数 据 库 开发 活动 在 哪个 阶段 出 现 ? 
. 是 否 有 在 SDLC、 原 型 方法 和 敏捷 方法 中 共同 存在 的 过 程 和 处 理 ? 解释 任何 你 可 以 确定 的 答案 ， 


然后 说 明 即 使 是 它们 含有 共同 的 基本 过 程 和 处 理 为 什么 这 些 开发 方法 还 被 认为 是 不 同 的 方法 ? 


. 解释 作为 同一 数据 库 的 不 同方 面 的 用 户 视 图 、 概 念 模式 和 内 模式 的 差别 。 
. 在 三 层 模式 体系 结构 中 : 


a. 管理 员 视 图 或 其 他 类 型 用 户 视 图 被 称 作 模式 。 
b. 数据 体系 结构 或 数据 管理 员 的 视图 被 称 作 模式 。 
c. 数据 库 管 理 员 的 视图 被 称 作 模式 。 


. 复习 “ Pine Valley 家 具 公 司 数据 库 应 用 开发 ”章节 。 数 据 库 开发 过 程 (图 1-8 ) 的 那个 阶段 完成 


Chris 执行 的 如 下 部 分 的 活动 : 
a. 项 目 规 划 b. 分 析 数 据 库 需求 c. 设计 数据 库 
d. 使 用 数据 库 e. 管理 数据 库 


.为 什么 Pine Valley 家 具 公 司 需 要 数据 仓库 ? 
19. 


作为 处 理 大 量 数据 改进 的 能 力 ， 描 述 三 个 业务 领域 ， 在 这 些 领 域 中 非常 大 的 数据 库 的 应 用 很 有 效 。 


问题 与 练习 


当 


对 下 面相 关 的 实体 对 ， 标 明 其 是 否 是 (典型 环境 下 的 ) 1 对 多 或 多 对 多 联系 。 然 后 ,使 用 课文 中 的 
标记 ， 画 出 每 个 联系 的 图 : 

a. STUDENT 和 COURSE (学 生 注册 课程 ) 

b. BOOK 和 BOOK COPY ( 书 有 拷贝 ) 

c. COURSE 和 SECTION (课程 有 不 同 课时 ) 

d. SECTION 和 ROOM (课时 被 分 配 在 教室 ) 

e. INSTRUCTOR 和 COURSE 


. 复习 本 章 关 于 数据 和 数据 库 的 定义 。 数 据 库 管 理 系 统 仅仅 是 现在 才 开始 包括 不 仅仅 存储 和 检索 数值 


与 文本 数据 的 能 力 ， 对 于 图 像 、 声 音 、 视 频 和 其 他 元 数据 类 型 需要 哪些 专门 的 数据 存储 、 检 索 与 维 
护 能 力 ， 而 这 些 是 数值 与 文本 数据 不 需要 或 只 是 很 简单 的 能 力 ? 


. 表 1-1 给 出 了 一 组 数据 项 的 元 数据 例子 。 关 注 这 些 数据 的 其 他 三 列 〈 即 列 出 的 属性 的 其 他 3 个 元 数 


据 特 征 )， 完 成 这 个 表 中 关于 这 三 个 附加 列 的 元 数据 项 。 
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:在 1.2 节 中 ， 曾 说 过 文件 处 理 系统 的 缺点 也 可 能 是 数据 库 的 局 限 ， 这 依赖 于 组 织 如 何 管理 其 数据 


库 。 首先 ， 为 什么 要 创建 多 个 数据 库 ， 而 不 是 用 一 个 数据 库 支 持 所 有 的 数据 处 理 需 求 ? 第 二 ， 组 织 
和 个 人 的 工作 因素 也 能 导致 组 织 有 多 个 独立 管理 的 数据 库 (因此 ,没有 完全 遵循 数据 库 方法 ) ? 


.考虑 一 个 学 生 俱 乐 部 或 一 个 组 织 ， 你 是 其 中 一 个 成 员 。 什 么 是 这 个 企业 的 数据 实体 ?列举 和 定义 每 


一 个 实体 。 然 后 开发 一 个 企业 数据 模型 (例如 图 1-3a)， 显 示 这 些 实体 和 它们 之 间 的 重要 联系 。 


. 驾照 管理 局 维护 一 个 驾照 数据 库 。 陈 述 如 下 内 容 是 否 表 示 数 据 或 元 数据 。 如 果 表 示 数 据 ， 说 明 其 是 


结构 化 的 还 是 非 结 构 化 数据 。 如 果 表 示 元 数据 ， 说 明 它 是 描述 数据 性 质 的 事实 还 是 描述 数据 内 容 的 
驾驶 员 的 名 字 、 地 址 和 出 生日 期 

驾驶 员 和 名字 是 30 个 字符 长 的 字段 

芷 驶 员 的 照片 

驾驶 员 指 纹 的 照片 

扫描 指纹 的 设备 的 制造 商 和 序列 号 

给 驾驶 员 照相 的 照相 机 的 分 辨 率 (以 百 万 像素 计 ) 

g. 驾驶 员 出 生日 期 必须 至 少 比 今天 早 16 年 


多 


o ang 


ft 


. 大湖 保 险 公司 将 要 实现 一 个 有 关 其 室内 和 室外 部 门 的 关系 数据 库 。 室 外 部 门将 使 用 笔记 本 电脑 以 跟 


踪 客 户 以 及 公司 规章 信息 。 根 据 你 在 本 章 已 经 学 习 的 内 容 ， 你 将 给 该 公司 推荐 哪 种 类 型 的 数据 库 ? 


. 图 1-21 为 Pet Store 建立 的 企业 数据 模型 。 


a. Pet 和 Store 的 联系 是 什么 ( 1 对 1 、 多 对 多 或 1 对 多 ) ? 
b. Customer 和 Pet 的 联系 是 什么 ? 
c. Customer 和 Store 是 否 应 该 有 联系 ? 


CUSTOMER 
Buys 





图 1-21 问题 与 练习 8 的 数据 模型 


.图 1-12 给 出 了 一 个 假想 的 三 层 数据 库 体系 结构 。 指 出 该 图 中 数据 库 中 潜在 的 数据 元 余 。 该 元 余 可 


能 引起 什么 问题 ?该 元 余 是 否 侵犯 了 本 章 给 出 的 数据 库 方 法 的 原则 ? 为 什么 有 这 些 问 题 或 没有 这 些 
问题 ? 


， 对 于 本 章 给 出 的 系统 开发 生命 周期 的 表述 ， 你 的 意见 是 什么 ? 并 对 此 加 以 解释 。 
.对 Pine Valley 家 具 公 司 的 企业 数据 模型 (图 1-3a) 给 出 另外 三 个 可 能 出 现 的 实体 。 
. 将 你 所 在 的 学 校 或 单位 作为 一 个 商务 企业 。 


a. 定义 几 个 主要 的 数据 实体 类 型 ， 并且 画 出 初步 的 企业 数据 模型 (类 似 于 图 1-3a)。 
b. 你 的 学 校 或 单位 是 否 得 益 于 数据 的 多 层 体 系 结构 ?是 或 不 是 ?为 什么 ? 


.原型 系统 开发 方法 的 目标 是 当 用 户 和 系统 分 析 员 从 原型 中 学 习 到 还 在 研制 的 演化 系统 应 该 包含 的 


特征 时 ， 能 够 快捷 地 构建 和 重新 构建 该 信息 系统 。 因 为 最 终 的 原型 不 必要 成 为 工作 的 系统 ， 所 以 
你 认为 理想 的 原型 开发 位 置 是 哪里 : 个 人 计算 机 、 部 门 服务 器 或 企业 服务 器 ?你 的 答案 依据 是 
什么 ? 


.解释 企业 数据 模型 和 概念 数据 模型 之 间 的 区 别 。 每 一 种 模型 中 有 多 少数 据 库 ? 每 种 模型 应 该 表达 


的 组 织 范围 是 什么 ?其 他 的 类 别 有 哪 些 ? 
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15. 针对 图 1-14， 解 释 连接 ORDER 和 INVOICE 以 及 INVOICE 和 PAYMENT 的 连 线 的 意思 。 它 们 表 
达 的 有 关 Pine Valley 家 具 公 司 中 与 客户 的 业务 是 什么 ? 
16. 针对 图 1-17 和 图 1-18 回答 如 下 问题 : 
a. 在 Product 表 中 ProductLineName 字段 的 大 小 是 多 少 ? 为 什么 ? 
b. 在 图 1-18 中 ，Product 表 中 ProductID 字段 说 明 是 必要 的 吗 ? 为 什么 它 是 一 个 必要 的 属性 ? 
c. 在 图 1-18 中 ， 解 释 FOREIGN KEY 定义 的 功能 。 
17.， 针对 图 1-19 考虑 如 下 SQL 查询 : 
a. 如 何 计算 最 新 的 销售 ? 
b. 如 果 Helen Jarvis 想 要 所 有 产品 线 的 结果 而 不 仅仅 是 家 庭 办 公 产 品 线 的 结果 ， 该 查询 如 何 修改 ? 
18. Helen Jarvis 想 要 确定 家 庭 办 公 产 品 的 最 重要 客户 。 她 需要 列 出 到 目前 为 止 所 有 购买 了 这 些 产品 的 
客户 的 总 购买 额 ， 并 且 该 列表 按 金 额 的 降序 排列 。 
a. 查看 图 1-15， 确 定 产 生 这 个 列表 的 实体 需求 。 


b. 在 SQL 查询 中 将 涉及 哪些 实体 以 满足 Helen 的 信息 需求 ? 
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数据 库 分 析 





第 二 部 分 包括 第 2 章 和 第 3 章 。 

数据 库 开 发 的 第 一 步 工 作 是 进行 数据 库 分 析 ， 数 据 库 分 析 的 主要 目的 是 确定 用 户 
的 数据 需求 以 及 建立 表示 用 户 需 求 的 数据 模型 。 第 二 部 分 中 的 两 章 深 入 阅 述 了 概念 数 
据 建 模 的 实际 标准 实体 一 联系 图 。 概 念 数据 模型 是 从 组 织 的 视图 来 表达 数据 的 ， 
并 且 独 立 于 该 模型 的 任何 实现 技术 。 

第 2 章 首 先 描 述 业 务 规则 ， 它 是 数据 模型 要 表达 的 业务 操作 的 政策 和 规则 。 这 里 
给 出 了 好 的 业务 规则 的 特征 描述 ， 并 且 讨 论 了 收集 业务 规则 的 过 程 ， 还 给 出 了 数据 模 
型 中 元 素 的 命名 与 定义 的 一 般 规则 。 

第 2 章 还 介绍 了 概念 建 模 技术 的 主要 结构 和 标记 法 ， 包 括 实 体 、 联 系 和 属性 ; 针 
对 每 种 结构 ， 采 用 特定 的 规则 命名 和 定义 数据 模型 中 的 元 素 ; 介绍 了 强 实 体 和 弱 实 体 
以 及 实体 间 的 标识 联系 ; 阐述 了 实体 联系 中 不 同类 型 的 属性 ， 包 括 必 要 与 可 选 属 性 、 
简单 与 复合 属性 、 单 值 与 多 值 属性 、 推 导 属 性 以 及 标识 符 ; 对 比 了 联系 类 型 及 其 实 
例 ， 并 引入 关联 实体 ; 阐述 不 同 元 的 实体 联系 ， 主 要 包括 一 元 、 二 元 、 三 元 联系 ， 针 
对 这 些 联系 提出 了 相应 的 建 模 方案 ， 并 对 数据 建 模 中 各 种 联系 的 基数 进行 介绍 ， 同 时 
讨论 了 数据 建 模 中 常见 的 时 间 相 关 数 据 的 建 模 问 题 ; 最 后 ， 阅 述 在 给 定 实 体 集 上 建立 
多 个 联系 的 方法 。 通 过 一 个 Pine Valley 家 有 具 公司 的 扩展 例子 介绍 了 E-R 建 模 的 概念 。 
本 章 中 涉及 的 例子 都 采用 微软 的 Visio 软件 制作 ， 展 示 了 如 何 通过 建 模 工具 表示 数据 
模型 。 

第 3 章 给 出 了 一 些 E-R 建 模 的 新 概念 ， 这 些 增 加 的 建 模特 征 满 足 了 处 理 当今 组 织 
中 逐渐 复杂 的 业务 环境 的 需求 。 

增强 的 实体 一 联系 (EER) 图 中 ， 最 重要 的 建 模 结 构 是 超 类 型 / 子 类 型 联系 ， 这 
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个 功能 有 助 于 构建 通用 实体 类 型 ( 即 为 超 类 型 )， 然 后 再 将 它们 细 分 为 一 些 专用 实体 类 
型 ， 即 子 类 型 。 例 如 ， 跑 车 和 轿车 都 是 汽车 的 子 类 型 。 本 章 介 绍 了 一 套 简 单 的 符号 用 
于 标识 超 类 型 / 子 类 型 联系 ， 同 时 还 给 出 了 一 些 相应 的 改进 。 本 章 还 介绍 了 利用 泛 化 
和 特 化 两 种 截然 不 同 的 技术 来 识别 超 类 型 / 子 类 型 联系 的 方法 。 第 3 章 还 会 益 述 超 类 
型 / 子 类 型 符号 在 日 益 流行 的 通用 数据 模型 中 的 必要 性 。 

模式 概念 已 经 成 为 很 多 信息 系统 开发 方法 的 核心 要 素 ， 它 是 一 种 可 复 用 组 件 ， 通 
过 组 合 和 搭配 来 满足 新 信息 系统 开发 需求 。 在 数据 库 领 域 ， 这 些 模 式 被 称 为 通用 数据 
模型 、 预 包装 数据 模型 或 逻辑 数据 模型 。 目 前 ， 这 些 模式 可 以 通过 付费 购买 或 者 是 被 
集成 到 现 有 的 商业 软件 包 中 使 用 ， 例 如 ERP 和 CRM 应 用 。 人 借鉴 这 些 模式 ， 设 计 了 越 
来 越 多 的 新 数据 库 。 第 3 章 将 介绍 这 些 模 式 的 实用 性 以 及 从 开发 这 些 模式 到 数据 库 开 
发 过 程 的 修改 。 一 般 行 业 或 业务 功能 的 数据 模型 已 经 广泛 使 用 本 章 介 绍 的 增强 E-R 画 
图 符号 进行 设计 。 

第 二 部 分 的 两 章 内 容 主 要 闸 述 概念 数据 建 模 的 思想 ， 为 读者 的 数据 库 分 析 和 设计 
职业 生涯 建立 基础 。 作 为 一 名 数据 库 分 析 人 员 ， 将 希望 通过 E-R 符号 对 用 户 需 求 的 数 
据 和 信息 进行 建 模 。 


| 第 2 章 


Essentials of Database Management 


组 织 中 的 数据 建 模 





学 习 目标 
学 完 本 章 后 ， 读 者 应 该 能 够 : 
。 准确 定义 以 下 术语 : 实体 -联系 模型 (E-R 模型 )， 实 体 -联系 图 (E-R 图 , 或 ERD)， 
业务 规则 ， 实 体 ， 实 体 类 型 ， 实 体 实例 ， 强 实体 类 型 ， 弱 实体 类 型 ， 标 识 主体 ， 联 系 
标识 ， 属性， 必要 属性 ， 可 选 属性 ， 复 合 属 性 ， 简 单 (或 原子 ) 属性 ， 多 值 属性 ， 推 
导 属 性 ， 标 识 符 ， 复 合 标识 符 ， 联 系 类 型 ， 联 系 实例 ， 关 联 实体 ， 度 ， 一 元 联系 ， 二 
元 联系 ， 三 元 联系 ， 基 数 约 束 ， 最 小 基数 ， 最 大 基数 ， 时 间 戳 。 
曾 述 为 什么 系统 开发 人 员 深 信和 数据 建 模 是 系统 开发 过 程 中 最 重要 的 部 分 。 
正确 命名 和 定义 实体 、 联 系 以 及 属性 。 
区 别 一 元 、 二 元 、 三 元 联系 ， 并 能 够 给 出 每 个 联系 对 应 的 常见 实例 。 
用 E-R 图 对 下 列 结构 进行 建 模 : 复合 属性 ， 多 值 属性 ， 推 导 属性 ， 关 联 实体 ， 联 系 
标识 以 及 最 小 和 最 大 基数 约束 。 

e 用 E-R 图 表示 常见 的 商业 关系 。 

e 把 多 对 多 的 联系 转换 为 关联 实体 类 型 。 

e 在 E-R 图 中 使 用 时 间 惟 和 联系 对 一 个 简单 的 时 间 相 关 数 据 建 模 。 

引言 

通过 第 1 章 中 简单 案例 的 介绍 ， 读 者 已 了 解 了 数据 建 模 和 实体 - 联系 (E-R) 数据 模型 。 
(如 果 需 要 复习 这 些 知 识 ， 可 以 查看 图 1-3 和 图 1-4 中 关于 E-R 模型 的 例子 。) 本 章 将 基于 业 
务 规则 概念 规范 数据 建 模 ， 并 详细 描述 E-R 数据 模型 。 本 章 将 开启 如 何 设计 和 使 用 数据 库 
的 历程 ， 同 时 体会 一 个 优秀 的 信息 系统 在 提高 组 织 工作 效率 方面 所 起 到 的 作用 。 

业务 规则 是 数据 模型 的 基础 ， 源 于 现实 世界 事物 的 规则 、 过 程 、 事 件 、 功 能 以 及 其 他 
业务 对 象 ， 描 述 了 组 织 上 的 约束 。 业 务 规则 表达 一 个 组 织 的 语言 和 基本 结构 ( Hay，2003 ) 。 
业务 规则 规范 了 一 个 组 织 的 拥有 者 、 管 理 者 和 领导 者 对 该 组 织 信息 系统 体系 结构 的 理解 。 

业务 规则 在 数据 建 模 中 非常 重要 ， 因 为 它 指导 了 如 何 处 理 和 存储 数据 。 基 础 业务 规则 是 
对 数据 的 命名 和 定义 。 本 章 将 介绍 如 何在 业务 规则 的 约束 下 给 数据 对 象 命 名 和 定义 。 在 概念 
建 模 中 ， 必 须 对 以 下 数据 对 象 进 行 命名 和 定义 : 实体 类 型 (例如 ，Customer (客户 ))， 属 性 
(例如 ，Customer Name (客户 名 )) 以 及 联系 (例如 ，Customer Places Orders (客户 订货 ))。 
还 有 一 部 分 业务 规则 陈述 数据 对 象 的 约束 。 这 些 约束 可 以 通过 数据 模型 获取 ， 如 实体 - 联系 
图 及 相关 文档 。 附 加 的 业务 规则 规定 了 组 织 中 的 人 员 、 位 置 、 事 件 、 处 理 、 网 络 和 目标 ， 文 
件 都 通过 其 他 系统 文档 与 数据 需求 关联 。 

经 过 数 十 年 的 应 用 ， 目 前 ，E-R 模型 仍然 是 概念 数据 建 模 的 主要 方法 ， 它 的 流行 源 于 它 
拥有 相对 简单 的 特性 、 有 计算 机 辅助 软件 工程 (CASE) 工具 的 广泛 支持 、 简 洁 的 实体 和 联 
系 概念 本 身 就 是 现实 世界 中 事物 自然 的 建 模 概念 。 
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E-R 模型 是 数据 库 开 发 分 析 阶 段 中 数据 库 设 计 人 员 和 终端 用 户 之 间 交 互 ( 见 第 1 章 ) 最 
常用 的 工具 。E-R 模型 用 于 建立 概念 数据 模型 ， 它 表达 了 数据 库 的 结构 和 约束 ， 与 具体 的 软 
件 (如 数据 库 管 理 系统 ) 无 关 。 

一 部 分 教材 作者 在 介绍 E-R 建 模 的 术语 和 概念 时 ， 将 E-R 模型 作为 关系 数据 模型 的 一 
种 特例 。 关 系数 据 模型 目前 仍 是 大 多 数 数据 库 管理 系统 的 基础 ， 教 材 作 者 还 建议 通过 主键 
和 外 键 完全 规范 化 E-R 模型 。 然 而 ， 本 教材 认为 这 种 规范 方法 对 关系 数据 模型 还 不 够 全 面 。 
目前 的 数据 库 环境 中 ， 数 据 库 可 以 用 面向 对 象 技术 或 者 面向 对 象 和 关系 混合 的 技术 实现 ， 因 
此 ， 本 教材 将 在 第 4 章 讨 论 规 范 化 概念 。 

E-R 模型 在 不 断 演化 ， 但 遗憾 的 是 到 目前 为 止 还 没有 形成 一 套 标准 的 E-R 建 模 符号 系 
统 。Song et al. ( 1995 ) 展示 了 一 组 10 个 不 同 E-R 建 模 的 符号 对 比 ， 并 分 析 了 每 种 方法 的 优 
缺点 。 由 于 目前 专业 数据 建 模 人 员 都 使 用 数据 建 模 软件 工具 对 数据 进行 建 模 ， 因 此 本 文采 用 
类 似 于 专业 数据 建 模 工具 中 使 用 的 符号 进行 描述 。 

在 实际 开发 环境 中 ， 开 发 者 可 能 不 需要 从 零 开 发 一 个 数据 模型 。 逐 渐 被 接受 的 封装 软件 
(例如 ， 具 有 预定 义 数 据 模型 的 企业 资源 规划 ) 和 购买 的 商业 领域 或 者 工业 数据 模型 (在 第 3 
章 中 介绍 ) 使 数据 建 模 工作 有 了 一 定 的 基础 。 由 于 这 些 软 件 中 的 组 件 和 模板 作为 数据 设计 模 
型 的 模板 ， 经 过 实践 检验 证 明 ， 它 给 数据 建 模 工作 提供 了 良好 的 工作 基础 。 但 仅 有 这 些 软 件 
还 不 够 ， 主 要 有 以 下 原因 : 

1 ) 选用 关联 的 数据 库 去 开发 新 的 定制 应 用 时 ， 仍 需 经 过 多 次 开发 。 该 应 用 所 支持 的 商 
业 领 域 的 业务 规则 需要 重新 建 模 。 

2 ) 购买 的 应 用 和 数据 模型 要 根据 用 户 需求 进行 定制 。 预 定义 的 数据 模型 一 般 比 较 宽 泛 
和 复杂 ; 因此 ， 需 要 有 好 的 数据 建 模 技 能 以 便 裁 剪 出 数据 模型 ， 为 给 定 的 组 织 定 制 一 个 有 效 
的 模型 。 虽 然 这 种 方法 比 从 零 开 始 更 快 、 更 详尽 和 更 准确 ， 但 是 理解 特定 的 组 织 使 数据 模型 
符合 其 业务 规则 的 能 力也 是 一 项 基本 任务 。 

本 章 运 用 常用 符号 和 惯例 介绍 E-R 建 模 的 主要 特征 。 首 先 从 一 个 简单 的 E-R 图 开始 ， 
其 中 涉及 E-R 模型 的 基础 元 素 一 一 实体 、 属 性 、 联 系 ， 然 后 介绍 业务 规则 的 概念 ， 业 务 规 
则 是 所 有 数据 建 模 结构 的 基础 。 这 里 给 出 E-R 建 模 中 常用 的 三 种 实体 定义 : 强 实 体 、 弱 实体 
和 关联 ， 更 多 实体 类 型 将 在 第 3 章 给 出 定义 。 男 外 ， 还 定义 一 些 重要 的 属性 类 型 ， 包 括 必要 
属性 和 可 选 属性 、 单 值 属性 和 多 值 属性 、 推 导 属 性 以 及 复合 属性 。 介 绍 与 联系 有 关 的 三 个 重 
要 概念 : 联系 的 度 、 联 系 的 基数 和 联系 中 的 参与 约束 。 最 后 ， 以 Pine Valley 家 具 公 司 的 E-R 
图 为 例 做 总 结 。 


2.1 E-R 模型 概述 


实体 一 联系 模型 ( E-R 模型 ) 是 对 组 织 业 务 领域 的 数据 的 一 种 详细 的 逻辑 表达 。E-R 模 
型 表述 了 业务 环境 中 的 实体 、 实 体 间 的 联系 (或 关联 ) 以 及 实体 和 实体 联系 的 属性 (或 性 
质 )。E-R 模型 通常 可 以 通过 一 个 实体 一 联系 图 ( E-R 图 或 ERD) 来 表示 ，E-R 图 是 E-R 模 
型 的 图 形 化 表示 方法 。 


2.1.1 E-R 图 示例 
图 2-1 展示 了 一 个 小 型 家 具 制 造 公司 ( 即 Pine Valley 家 具 公 司 ) 的 简化 E-R 图 (这 张 图 


铝 2 葛 缁 织 庆 的 数据 建 左 。 好 


没有 包含 属性 信息 ， 通 常 称 它 为 企业 数据 模型 ， 这些 内 容 在 第 1 章 已 经 阐述 )。 多 个 供应 商 
给 Pine Valley 家 具 公 司 提供 和 配送 不 同 的 零件 ， 这 些 零件 被 组 装 成 产品 ， 并 且 销 售 给 订购 了 
该 产品 的 客户 ， 每 个 客户 订单 包括 一 种 或 多 种 订购 的 产品 。 
供应 提交 


SUPPLIER BD 


被 供应 





基数 
ENTITY 联系 一 一 一 人- 一 一 一 合十 
TYPE 单 强制 单 选 项 
ea 一 一 
多 强制 多 选项 


图 2-1 E-R 图 示例 


图 2-1 中 的 E-R 图 展示 了 公司 的 实体 和 联系 (此 处 省 略 了 属性 信息 )。 实 体 (组 织 的 对 
象 ) 用 矩形 符号 表示 ， 实 体 间 的 联系 通过 实体 间 的 连 线 表 示 。 图 2-1 中 包含 以 下 实体 : 


soVER)| 已 经 订购 或 可 能 订购 产品 的 个 人 或 组 织 。 例 如 :LI. Fish Furniture 

产品 可 以 被 客户 订购 且 由 Pine Valley 家 具 公 司 生产 的 家 具 。 请 注意 ， 一 个 产品 不 是 某 个 特定 的 书柜 ， 
(PRODUCT) | 因为 特定 的 某 个 书柜 不 需要 跟踪 。 例 如 : 一 个 6 英尺 长 且 有 5 个 书 格 的 橡木 书柜 统称 为 0600 

订单 与 销售 给 客户 一 个 或 多 个 产品 关联 的 交易 ， 该 交易 通过 销量 或 账单 的 交易 号 标识 。 例 如 : L. 工 . 
(ORDER ) Fish 在 2010 年 9 月 10 日 购买 一 件 产品 0600 和 四 件 产品 0623 的 事件 

零件 用 来 制造 一 件 或 多 件 产品 的 组 件 ， 可 以 由 一 个 或 多 个 供应 商 提 供 。 例 如 : 一 个 称 作 1- 27 - 4375 的 
(ITEMD) 4 英寸 滚珠 脚轮 轴承 

估 应 商 可 以 提供 零件 给 Pine Valley 家 具 公 司 的 公司 。 例 如 ， Sure Fasteners 公司 

(SUPPLIER ) 

运 间 与 Pine Valley 家 具 公 司 收 到 来 自 供应 商 的 同一 个 包装 中 的 零件 相关 联 的 交易 。 同 一 个 运单 中 的 所 
TN 有 零件 出 现在 一 个 账单 文件 中 。 例 如 : 2010 年 9 月 9 日 来 自 Sure Fasteners 公司 的 3001-27-4375 和 


200 1-27-4380 零件 的 发 票 


注意 ， 作 为 元 数据 ， 明 确 地 定义 每 个 实体 非常 重要 。 以 Pine Valley 家 具 公司 为 例 ， 清 楚 
地 理解 CUSTOMER (客户 ) 实体 包括 还 没有 购买 产品 的 个 人 或 组 织 这 一 点 非常 重要 。 通 常 
企业 中 不 同 部 门 对 同一 个 概念 有 不 同 的 解释 。 例 如 ， 财 会 部 门 认 为 只 有 产生 购买 行为 的 个 人 
或 单位 才 是 客户 ， 这 样 ， 那 些 潜 在 的 客户 将 被 握 弃 在 外 。 而 销售 部 门 认为 所 有 那些 曾经 联系 
过 的 或 者 已 经 在 公司 有 过 购买 行为 ， 其 至 已 知 的 竞争 对 手 都 可 能 是 客户 。 元 数据 定义 不 明确 
的 E-R 图 会 导致 二 义 性 ， 在 本 章 介绍 E-R 建 模 时 ， 我们 将 总 结 那些 好 的 命名 和 定义 惯例 。 

E-R 图 中 每 条 连 线 尾 端 都 有 一 个 符号 表示 联系 的 基数 ， 基 数 代表 一 种 类 型 中 有 多 少 个 实 
体 与 男 一 类 型 中 的 多 少 个 实体 有 联系 。 图 2-1 中 ， 基 数 符号 表达 了 如 下 的 业务 规则 : 

1 ) 一 个 SUPPLIER (供应 商 ) 可 能 会 供应 多 种 ITEM (“可 能 供应 ”标识 符 是 指 供应 商 


9 1 英尺 =0.3048 米 。 
昌 1 英寸 =0.0254 米 。 
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可 能 不 提供 任何 零件 )。 每 种 ITEM (零件 ) 是 被 任意 数量 的 SUPPLIER 供应 (“供应 ”标识 
符 表示 零件 必须 (must) 至 少 由 一 个 供应 商 供应 )。 人 参见 图 2-1 中 标注 的 带 有 下 划 线 的 词 。 

2 ) 每 件 ITEM 必须 用 于 装配 至 少 一 种 PRODUCT (产品 )， 也 可 以 用 于 装配 多 种 产品 。 
相反 ， 每 种 PRODUCT 必须 使 用 一 个 或 多 个 ITEM。 

3 ) 一 个 SUPPLIER 可 以 发 送 多 个 SHIPMENT (运单 )。 可 是 每 张 运单 必须 恰 由 一 个 
SUPPLIER 发 送 。 注 意 ， 发 送 和 供应 是 两 个 不 同 的 概念 。 如 , SUPPLIER 可 以 供应 某 种 零件 ， 
但 可 能 还 没有 发 送 该 零件 。 

4) SHIPMENT 必须 包括 一 个 (或 多 个 ) ITEM， 而 一 个 ITEM 可 能 出 现在 几 批 
SHIPMENT 中 。 

5 ) 一 个 CUSTOMER (客户 ) 可 以 提交 任意 数量 的 ORDER (订单 )， 但 是 每 个 ORDER 
必须 恰 由 一 个 CUSTOMER 提交 。 人 允许 存在 一 部 分 潜在 的 、 不 活跃 的 或 可 能 没有 提交 过 任何 
ORDER 的 CUSTOMER 。 

6 ) 一 个 ORDER 必须 有 一 件 (或 多 件 ) PRODUCT。 一 个 PRODUCT 可 能 出 现在 一 个 或 
多 个 ORDER 中 ， 也 可 能 不 出 现在 任何 ORDER 中 。 

实际 上 每 种 联系 有 两 种 业务 规则 ， 从 一 个 实体 到 另 一 个 实体 的 每 个 方向 上 都 有 一 个 。 注 
意 ， 这 些 业 务 规则 基本 遵循 固定 的 语法 ， 如 : 

< 实体 >< 最 小 基数 >< 联系 >< 最 大 基数 >< 实体 > 
例如 ， 规 则 5 是 : 
<CUSTOMER>< 可 以 >< 提交 >< 任意 数量 ><ORDER> 

这 种 语法 给 出 了 把 每 一 个 联系 转化 成 一 个 自然 语言 表述 的 业务 规则 语句 的 一 种 标准 

方法 。 





2.1.2”E-R 模型 符号 
E-R 图 中 使 用 的 符号 如 图 2-2 所 示 。 如 在 上 一 节 中 所 指出 的 ， 目 前 还 没有 统一 的 行业 标 

准 符号 (事实 上 ,第 1 章 已 经 给 出 了 

一 部 分 简单 的 符号 )。 图 2-2 中 的 符 实体 类 型 

号 结合 了 不 同 符号 标识 系统 的 优点 ， 

它们 也 是 目前 E-R 图 绘制 工具 中 常用 


的 符号 ， 让 用 户 可 以 对 大 多 数 实际 情 





境 准确 建 模 。 第 3 章 将 在 增强 实体 - 
联系 模型 中 介绍 扩展 符号 (包括 类 与 
子 类 之 间 的 继承 联系 )。 二 
很 多 情况 下 ， 简 单 的 ER 模型 符 We 
号 已 经 可 以 满足 用 户 需 求 。 对 于 大 多 一 


数 绘图 软件 ， 无 论 是 微软 的 Visio 或 

是 SmartDraw (这 些 是 与 本 章 有 关 的 。 联系 的 基数 
视频 教学 中 用 到 的 绘图 软件 ) 等 独立 

软件 ， 或 者 如 Oracle Designer、CA 单 强制 多 强制 单 选项 多 选项 
ERwin 和 PowerDesigner 这样 的 计算 图 2-2 E-R 模型 基本 符号 





锣 2 葛 组 织 庆 的 数据 建 检 45 


机 辅助 工程 (CASE) 工具 软件 ， 都 不 能 表示 用 户 需 要 的 所 有 实体 和 属性 类 型 。 有些 可 以 表示 
业务 规则 的 重要 符号 在 绘图 工具 中 没有 ， 这 部 分 符号 需要 手动 添加 并 且 进 行 专门 的 注释 。 本 
草 通 过 几 个 Visio 符号 表示 的 E-R 模型 案例 比较 不 同 标识 符号 的 差异 。 


2.2 组 织 规则 建 模 


到 目前 为 止 , 我 们 已 经 了 解 了 简单 数据 模型 的 实例 ， 现 在 回想 并 思考 一 下 普通 的 数据 模 
型 可 以 表达 和 呈现 哪些 内 容 。 本 章 及 下 一 章 内 容 将 学 习 如 何 使 用 数据 模型 ， 特 别 是 使 用 实 
体 一 联 系 符号 来 记录 组 织 中 的 规则 和 政策 。 事 实 上 ， 数 据 建 模 的 主要 作用 就 是 希望 通过 组 织 
的 规则 和 政策 进行 数据 管理 。 通 过 组 织 中 业务 规则 和 政策 ， 在 信息 处 理 和 存储 系统 中 进行 数 
据 的 创建 、 更 新 、 删 除 等 操作 管理 ， 因 此 ， 业 务 规则 和 政策 必须 与 被 描述 的 数据 相关 。 例 
如 ， 规 定 “高 校 中 每 名 学 生 都 必须 有 一 位 导师 ”的 规则 在 数据 库 中 就 是 每 名 学 生 的 数据 都 会 
与 其 导师 的 数据 相关 联 。 此 外 ,声明 “学 生 是 指 任何 一 个 已 经 申请 并 参加 了 大 学 中 有 学 分 或 
无 学 分 信 学、 上课 或 培训 的 人 ”， 这 个 声明 不 仅 定义 了 大 学 中 “学 生 ” 的 含义 ， 同 时 表述 了 
这 所 大 学 的 政策 。( 例 如 ， 校 友 是 学 生 ， 而 一 名 高 中 生 虽 然 参 加 了 一 所 大 学 有 学 分 的 活动 但 
是 他 没有 申请 过 这 所 大 学 ， 那 么 他 就 不 是 指定 大 学 数据 库 中 的 一 名 学 生 。) 

数据 库 分 析 人 员 的 主要 工作 任务 有 : 

。 识别 和 理解 业务 规则 在 数据 管理 中 的 作用 。 

。 表达 规则 ， 使 其 无 二 义 性 地 被 信息 系统 开发 人 员 和 用 户 所 理解 。 

。 用 数据 库 技术 实现 这 些 规 则 。 

业务 规则 更 为 正式 的 定义 是 “ 它 是 定义 或 约束 某 些 业务 方面 的 语句 。 它 用 于 维护 业务 结 
构 ， 或 控制 或 影响 业务 行为 …… 从 而 阻止 、 引 导 或 建议 某 些 事件 发 生 ”( GUIDE Business Rules 
Project，1997 )。 例 如 ， 下 面 两 个 语句 是 在 业务 规则 中 影响 数据 处 理 和 存储 的 常见 语句 : 

e。 “一 个 学 生 可 以 注册 某 门 课程 的 条 件 是 ， 必 须 完 成 这 门 课程 的 先 修 课程 。” 

。 “一 个 客户 只 要 不 存在 未 兑现 的 账目 都 可 以 享受 9 折 优 惠 。” 

E-R 模型 能 够 表达 多 种 业务 规则 ， 但 有 一 些 业务 规则 无 法 通过 E-R 模型 表示 。 本 章 和 下 
一 音 将 讲述 如 何在 E-R 模型 中 表示 业务 规则 。 


数据 名 与 定义 


理解 数据 和 对 数据 建 模 的 基础 是 数据 对 象 的 命名 和 定义 。 在 组 织 数据 的 模型 中 无 二 义 性 
地 使 用 数据 对 象 之 前 必须 要 准确 命名 和 定义 数据 对 象 。 本 章 将 学 习 实 体 - 联系 符号 ， 学 习 如 
何 准确 命名 和 定义 实体 、 联 系 以 及 属性 。 
1. 数据 名 
本 小 节 将 提供 在 开发 实体 -联系 数据 模型 过 程 中 实体 、 联 系 和 属性 的 命名 方法 ， 也 提供 
一 些 通用 的 数据 对 象 命 名 方法 。 数 据 名 应 符合 以 下 标准 (Salin,1990;ISO / IEC 2005 ): 
e 具有 与 业务 相关 而 非 与 技术 (硬件 或 软件 ) 相关 的 特征 ， 所 以 ，Customer (客户 ) 是 
一 个 好 的 数据 名 ,但 File10、Bit7 以 及 Payroll Report Sort Key 都 不 是 好 的 数据 名 。 
e。 有 意义 ， 数 据 名 是 对 数据 的 记录 ( 即 能 够 提炼 和 阅 述 特定 数据 对 象 的 意义 ,不 需要 
用 户 反 复 陈 述 数 据 对 象 本 身 的 含义 ); 数据 名 中 尽量 避免 使 用 通用 词 ， 如 has 、is、 
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person 、it 等 。 
e 具有 唯一 性 ， 数 据 名 不 能 重复 ， 命 名 时 可 以 用 一 个 不 同 的 单词 区 分 其 他 类 似 的 数据 对 
象 (例如 ，Home Address (主页 地 址 ) 与 Campus Address (校园 地 址 ) )。 
具有 可 读 性 ， 用 上 自然 语言 描述 结构 化 概念 (例如 ，Grade Point Average (平均 绩 点 ) 是 
一 个 好 的 数据 名 ， 而 Average Grade Relative To A (相对 于 A 的 平均 成 绩 ) 可 能 是 准 
确 的 ， 但 却 是 一 个 不 好 的 数据 名 )。 
命名 的 单词 由 许可 的 单词 组 成 ， 每 个 组 织 通常 会 选择 一 个 词汇 表 ， 从 这 个 词汇 表 中 
选择 有 意义 的 单词 为 数据 命名 (例如 ， 最大， 无 上 限 ， 上 限 或 最 高 ); 代称 或 别名 也 
可 以 用 缩写 来 命名 (例如 ，CUSTOMER 用 CUST 命名 ) 。 为 了 使 数据 名 称 尽 可 能 短 ， 
以 符合 数据 库 技 术 中 数据 命名 最 大 长 度 限 制 的 条 件 ， 也 可 以 用 缩写 命名 数据 。 
e。 具有 可 复 用 性 ， 数 据 名 具有 标准 的 层次 结构 或 模式 。 不 同 的 人 或 同一 个 人 在 不 同 的 时 
间 可 以 采用 相同 或 相似 的 名 字 。 例 如 ， 数 据 名 为 出 生日 期 ， 对 于 学 生 对 象 ， 出 生日 期 
是 指 学 生 的 出 生日 期 (Student Birth Date)， 对 于 员工 对 象 ， 出 生日 期 是 指 员 工 的 出 生 
日 期 (Employee Birth Date ) ) 。 
。 遵循 语法 标准 ， 数 据 对 象 命名 都 是 遵循 组 织 中 标准 语法 规则 的 。 
Salin ( 1990 ) 建议 定义 数据 名 应 该 遵循 以 下 步骤 及 规则 : 
1 ) 准备 数据 定义 〈 稍 后 会 讨论 数据 定义 的 相关 内 容 )。 
2 ) 删除 意义 不 明确 的 单词 或 停 用 词 (命名 时 不 允许 采用 的 单词 列表 ) ; 注意 ， 如 果 遇 到 
AND 和 OR 关键 词 ， 有 可 能 表示 两 个 或 多 个 数据 对 象 有 关联 关系 ， 为 了 区 别 这 些 对 象 ， 需 
要 给 它们 指定 不 同 的 名 字 。 
3 ) 数据 名 中 使 用 的 单词 是 有 意义 的 ， 且 能 够 被 复 用 。 
4) 可 以 使 用 单词 的 标准 缩写 。 
5 ) 命名 前 要 确认 数据 名 是 否 已 经 存在 ， 如 果 已 经 存在 ， 则 重新 命名 ， 要 保证 数据 名 的 
唯一 性 。 
本 章 在 设计 数据 建 模 符号 时 ， 将 列举 一 些 好 的 数据 名 实例 。 
2. 数据 定义 
定义 (也 称 为 结构 化 声明 ) 被 认为 是 一 种 业务 规则 (GUIDE Business Rules Project， 
1997 )。 和 定义 用 来 解释 一 个 概念 或 概念 之 间 的 联系 。 概 念 的 实例 有 课程 、 章 节 、 出 租车 、 航 
班 、 预 订 以 及 乘客 。 一 个 定义 可 以 涉及 多 个 概念 ， 如 : 
e “课程 是 在 一 个 特定 学 科 领 域 中 的 教学 模块 。 ”这 个 定义 关联 了 两 个 概念 : 教学 模块 和 
学 科 领 域 ， 这 两 个 都 是 不 需要 进一步 定义 的 常用 术语 。 
3. 好 的 数据 定义 
本 章 和 下 一 章 将 介绍 如 何在 设计 实体 -联系 符号 时 给 实体 、 联 系 、 属 性 一 个 好 的 定义 。 
另外 ， 要 遵循 一 些 通用 的 规则 (Aranow，1989; ISO/IEC，2004 ): 
e 定义 (和 所 有 其 他 类 型 的 业务 规则 ) 均 来 源 于 相同 信息 系统 所 需 的 资源 。 因 此 ， 系 统 
和 数据 分 析 人 员 应 该 在 对 信息 系统 需求 资源 有 一 定 研 究 和 了 解 的 基础 之 上 ， 对 数据 对 
象 进行 定义 。 
e 定义 通常 会 配 图 ， 如 实体 -联系 图 等 。 定 义 对 图 的 内 容 进 行 补充 ， 不 需要 在 图 中 重复 
表示 。 
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e 定义 描述 数据 对 象 的 特殊 性 ， 而 不 必 解 释 对 象 的 是 非 问 题 。 定 义 采用 通常 所 理解 的 术 


语 和 缩 略 语 解释 数据 对 象 的 独立 含义 ， 不 需要 用 其 他 定义 进行 重复 解释 。 定 义 应 该 简 

洁 明 了 地 解释 数据 对 象 的 本 质 含 义 ， 也 可 陈述 数据 对 象 的 如 下 特征 : 

4 细微 差别 。 

4 涵盖 特殊 或 异常 情况 。 

* 实例 性 。 

4 指明 组 织 中 何 时 、 何 地 以 及 如 何 创 建 或 计算 数据 。 

4 明确 数据 是 静态 的 还 是 随时 间 变 化 的 。 

4 明确 数据 在 原子 形态 下 是 单数 还 是 复数 。 

。 谁 决定 了 数据 的 价值 。 

4 谁 拥有 数据 ( 即 谁 负责 定义 和 使 用 )。 

4 数据 是 否 是 可 选 的 ， 或 者 是 否 人 允许 为 空 值 ( 称 为 null)。 

4 数据 是 否 还 能 被 划分 为 更 多 的 原子 部 分 ， 或 者 是 与 其 他 数据 组 合成 复合 或 聚合 
格式 。 

如 果 以 上 这 些 特性 没有 包含 在 数据 定义 中 ， 就 要 在 其 他 元 数据 存储 的 时 候 再 做 记录 。 

e 数据 对 象 应 该 在 已 经 被 仔细 定义、 命名 和 认可 的 情况 下 才能 在 数据 模型 中 使 用 ， 如 实 

体 -联系 图 中 的 数据 对 象 。 数 据 模 型 的 开发 过 程 可 以 验证 设计 人 员 对 数据 含义 的 理 
解 ， 根 据 理解 的 不 同 ， 图 中 数据 对 象 的 定义 也 会 发 生变 化 。( 换 句 话 说， 数据 建 模 是 
个 迭代 的 过 程 。) 

在 数据 建 模 中 一 个 好 的 数据 定义 非常 重要 ， 通 俗 地 说 ， 即 谁 控制 数据 的 定义 谁 就 控制 了 
数据 。 看 起 来 获取 用 于 组 织 数据 定义 的 术语 和 事实 很 容易 ， 然 而 ， 这 往往 与 实例 不 符 。 事 
实 上 ， 这 可 能 是 在 数据 建 模 中 过 到 的 最 大 挑战 ， 因 此 需要 努力 完成 。 在 组 织 中 ， 对 常用 术语 
(如 客户 或 订单 ) 重复 定义 (可 能 一 批 或 者 更 多 ) 是 很 常见 的 事情 。 

为 了 说 明 设 计数 据 对 象 定义 的 内 在 问题 ， 分 析 一 下 在 某 重点 大 学 选取 的 一 个 学 生 数 据 对 
象 的 案例 。 一 个 学 生 定义 的 样本 是 :“ 一 个 人 已 经 被 该 校 录取 ， 并 在 过 去 一 年 中 已 经 至 少 注 
册 一 门 课程 。” 这 个 定义 一 定 会 受到 质疑 ， 因 为 可 能 过 于 狭窄。 通常 学 生 与 学 校 的 关系 会 经 
历 几 个 不 同 阶段 : 

1 ) 有 兴趣 一 一 对 学 校 有 过 接触 和 了 解 ， 表 示 对 学 校 有 兴趣 

2 ) 申请 一 一 申请 入 学 

3 ) 录取 申请 人 一 一 经 过 录取 程序 ， 学 校 录取 申请 人 

4 ) 预科 生 一 一 注册 至 少 一 门 课程 

5 ) 继续 深造 的 学 生 一 一 注册 一 门 已 有 基础 的 课程 (没有 实质 性 的 差距 ) 

6 ) 留级 生 一 一 在 规定 时 间 无 法 注册 课程 (现在 可 以 重新 申请 ) 

7 ) 毕业 一 一 圆满 完成 某 些 学 位 课程 (可 以 申请 男 一 门 课程 ) 

在 这 些 条 件 下 ， 定 义 要 取得 共识 的 难度 可 想 而 知 ! 因为 条 件 较 多 ， 可 以 在 定义 时 考虑 如 
平反 个 方法 5 

1 ) 用 多 个 定义 涵盖 各 种 情况 。 如 果 只 有 一 个 实体 类 型 ， 这 种 方法 会 非常 混乱 ， 所 以 不 
推荐 (多 个 定义 不 是 好 的 定义 方法 )。 

2 ) 用 通用 的 定义 涵盖 大 多 数 情 况 。 这 种 方法 需要 增加 额外 的 数据 来 记录 和 标识 学 生 的 
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实际 状态 。 
3 ) 考虑 使 用 多 个 相关 数据 对 象 表示 学 生 。 例 如 ， 可 以 创建 一 个 通用 的 学 生 实体 类 型 ， 
用 为 外 一 些 特定 的 实体 类 型 表示 学 生 特 征 。 第 3 章 会 介绍 这 种 方法 的 使 用 。 


2.3 ”实体 和 属性 建 模 


E-R 模型 由 实体 、 联 系 和 属性 构成 。 如 图 2-2 所 示 ， 模 型 中 的 结构 允许 有 多 种 变化 。 设 
计 人 员 可 以 通过 丰富 的 E-R 模型 将 真实 世界 的 场景 模拟 得 准确 、 生 动 ， 这 样 有 助 于 E-R 模 
型 的 普及 。 


2.3.1 实体 


实体 是 用 户 环 境 中 的 人 物 、 地 点 、 对 象 、 事 件 或 者 概念 ， 利 用 这 些 实体 组 织 可 以 维护 数 
据 。 因 此 ， 实 体 一 般 都 有 个 名 词 词性 的 名 字 。 列 举 一 些 上 述 每 种 实体 的 例子 : 

人 物 : EMPLOYEE (员工 )，STUDENT (学 生 )，PATIENT (患者 ) 

地 点 : STORE (商店 )，WAREHOUSE (仓库 )，STATE ( 州 ) 

对 和 象 : MACHINE (机 器 )，BUILDING (建筑 )，AUTOMOBILE (汽车 ) 

事件 : SALE (销售 )，REGISTRATION (登记 )，RENEWAL ( 续 期 ) 

概念 : ACCOUNT (账户 )，COURSE (课程 )) WORK CENTER (工作 中 心 ) 

1. 实体 类 型 与 实体 实例 

实体 类 型 和 实体 实例 之 间 有 一 个 重要 的 区 别 。 实 体 类 型 (entity type) 是 有 共同 性 质 或 特 
征 的 实体 的 集合 。E-R 模型 中 的 每 个 实体 类 型 都 对 应 一 个 名 字 。 这 个 名 字 代 表 唯 一 的 一 个 对 
象 集 合 ， 通 常用 大 写字 母 表 示 实 体 类 型 的 名 字 。 在 E-R 图 中 , 方 框 内 的 实体 名 字 代 表 实 体 
类 型 (如 图 2-1 所 示 )。 

实体 实例 ( entity instance) 是 某 个 实体 类 型 的 独立 事件 。 图 2-3 显示 了 EMPLOYEE ( 员 
工 ) 实体 类 型 与 其 两 个 实例 之 间 的 联系 和 区 别 。 实 体 类 型 在 数据 库 中 只 描述 一 次 (使 用 元 数 
据 )， 而 数据 库 中 可 以 存储 某 实体 类 型 的 多 个 实例 。 例 如 ， 在 大 多 数 公 司 中 都 定义 员工 实体 
类 型 ， 而 在 数据 库 中 会 存储 数 百 个 (甚至 数 千 个 ) 员工 实体 类 型 的 实例 。 通 过 前 面 的 讨论 可 
以 得 出 比较 清晰 的 结论 ， 即 应 该 采用 唯一 的 术语 实体 而 非 实 体 实例 。 


实体 类 型 . EMPLOYEE 


me mm lc 


















City 


图 2-3 具有 两 个 实例 的 员工 实体 类 型 
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2. 实体 类 型 与 系统 的 输入 、 输 出 或 用 户 
即使 是 非常 熟悉 数据 建 模 流程 (如 数据 流程 图 ) 的 设计 人 员 在 画 E-R 图 时 通常 也 会 犯 一 
个 错误 ， 就 是 常 把 数据 实体 与 全 局 信息 系统 模型 中 其 他 数据 元 素 混 消 。 避 免 这 种 混 消 的 一 个 
简单 规则 是 ， 真 正 的 数据 实体 可 以 有 许多 可 能 的 实例 ， 但 每 种 实例 都 有 一 个 与 众 不 同 的 特征 
以 及 一 个 或 多 个 其 他 数据 描述 片段 。 
观察 图 2-4a， 该 E-R 图 表示 某 个 学 院 女生 联谊 会 的 费用 管理 系统 的 数据 库 。( 为 简单 
人 SS 
REPORT 


起 见 ， 本 图 及 其 他 一 些 图 中 每 个 联系 只 显示 名 
字 )。 假 设 联谊 会 的 出 纳 (treasurer) 负责 管理 账 

V 

Manages Summarizes 


Receives 一 














户 (account)， 接 收 开 文 报 告 (expense report)， 
并 记录 账户 的 每 个 交易 的 费用 情况 。 但 是 ， 系 
统 有 没有 必要 记录 出 纳 (TREASURER (出 纳 ) 












人 小 小 
实体 类 型 )、 出 纳 所 管理 的 账户 (Manages( 管 理 ) i 
ACCOUNT A EXPENSE 
联系 ) 以 及 出 纳 接 收 的 开支 报告 ( Receives( 接 Nooo | A EPense 


收 ) 联系 ) 之 间 的 联系 呢 ? 出 纳 是 负责 录入 收 支 ”系统 用 户 (出 纳 ) 和 输出 显示 (开支 报告 ) 实体 图 
数据 以 及 接收 消费 报告 的 工作 人 员 ， 同 时 也 是 ls Charged 
数据 库 中 的 一 个 用 户 。 但 是 由 于 系统 只 有 一 个 EE 
出 纳 ， 因 此 出 纳 的 数据 没有 必要 单独 保存 。 那 
么 ， 是 否 还 有 必要 增加 EXPENSE REPORT ( 开 国 224 不 扩 富国 于 村 抽 手 
支 报告 ) 实体 呢 ? 开支 报告 是 对 费用 交易 和 账户 余额 的 计算 ， 是 从 数据 库 中 对 费用 数据 读 取 
和 修改 的 结果 ， 并 由 出 纳 接 收 。 即 使 随 着 时 间 变 化 出 纳 会 收 到 多 份 开支 报告 的 实例 ， 每 次 计 
算 开 支 报告 所 需 的 数据 也 会 由 ACCOUNT (账户 ) 和 EXPENSE (开支 ) 实体 类 型 代表 。 

另外 ， 在 图 2-4a 中 的 ERD 中 Receives 和 Summarizes( 汇 总 ) 的 联系 名 字 可 能 存在 错误 ， 
因为 这 些 联系 名 字 连 接 的 内 容 不 是 某 一 种 数据 与 其 他 数据 的 关联 ， 而 是 传输 或 翻译 数据 的 业 
务 活动 。 图 2-4b 是 简化 的 E-R 图 ,图 中 展示 的 实体 、 联 系 足 以 处 理 上 述 联谊 会 的 费用 系统 。 
本 章 问 题 与 练习 21 就 属于 这 种 类 型 的 变种 。 

3. 强 实体 类 型 与 弱 实 体 类 型 

组 织 结 构 中 大 多 数 的 基本 实体 类 型 为 强 实体 类 型 。 强 实体 类 型 ( strong entity type) 是 
独立 于 其 他 实体 的 实体 类 型 (实际 上 ， 一 些 数 据 建 模 软 件 使 用 术语 独立 实体 来 表示 强 实 体 )。 
例如 STUDENT (学 生 )、EMPLOYEE (员工 )、AUTOMOBILE (汽车 ) 以 及 COURSE ( 课 
程 )。 强 实体 类 型 的 实例 一 般 有 独特 的 特征 〈 称 为 标识 符 )， 即 有 一 个 或 一 组 属性 来 唯一 标识 

相反 ， 弱 实体 类 型 ( weak entity type) 是 依赖 于 其 他 实体 类 型 而 存在 的 实体 类 型 ( 实 
际 上 ,一 些 数 据 建 模 软件 使 用 术语 依赖 实体 来 表示 弱 实 体 )。 在 E-R 图 中 ,一 个 弱 实体 类 
型 如 果 没 有 依赖 的 实体 类 型 就 毫 无 业务 意义 。 弱 实体 类 型 所 依赖 的 实体 类 型 称 为 标识 主体 
( identifying owner， 或 简称 所 有 者 )， 弱 实体 类 型 通常 没有 自己 的 标识 符 。 一 般 来 说 ， 在 E-R 
图 中 ， 弱 实体 类 型 可 以 有 作为 部 分 标识 符 的 属性 。 第 4 章 将 介绍 一 个 弱 实 体 完 整 的 标识 符 ， 
该 标识 符 可 以 通过 弱 实 体 的 部 分 标识 符 与 它 所 依赖 的 主 实体 标识 符 共 同 创建 ， 或 者 通过 创建 
一 个 代理 标识 符 属性 单独 创建 。 
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图 2-5 所 示 的 是 有 标识 联系 的 弱 实 体 类 型 的 实例 。EMPLOYEE (员工 ) 是 标识 符 为 
Employee ID 的 强 实体 类 型 (注意 ,标识 符 属性 用 下 划 线 表示 )。DEPENDENT (家 属 ) 为 轮 
实体 类 型 ， 弱 实体 类 型 用 双 线 矩形 表示 。 一 个 弱 实 体 类 型 和 它 的 所 有 者 之 间 的 联系 称 为 标 
识 联 系 (identifying relationship ) 。 在 图 2-5 中 Carries(〈 携 带 ) 是 标识 联系 (标识 联系 用 双 
下 划 线 表示 )。Dependent Name (家 属 姓 名 ) 属性 作为 部 分 标识 符 〈 后 面 会 介绍 Dependent 
Name 是 一 个 能 够 细 分 的 复合 属性 )。 使 用 双 下 划 线 来 表示 部 分 标识 符 。 在 后 面 的 设计 阶段 ， 
Dependent Name 将 结合 Employee ID( 主 实体 标识 符 )， 形 成 一 个 完整 的 DEPENDENT( 家 属 ) 
实体 标识 符 。 强 实体 与 弱 实体 对 的 男 外 一 些 例子 是 : BOOK (图 书 ) -BOOK COPY (图 书 副 
本 )，PRODUCT (产品 ) -SERIAL PRODUCT (产品 系列 ) 和 COURSE (课程 ) -~ COURSE 
OFFERING (课程 设置 )。 







EMPLOYEE 













DEPENDENT 

Dependent Name 
(First Name, 
Middle initial, 
Last Name) 

Date of Birth 


Employee ID 
Employee Name 


图 2-5 一 个 弱 实 体 及 其 标识 联系 的 例子 


4. 命名 和 定义 实体 类 型 
除了 命名 和 定义 数据 对 象 的 一 般 规则 外 ， 还 有 一 些 特殊 的 实体 类 型 命名 规则 : 


实体 类 型 名 字 是 一 个 单数 名 词 (如 CUSTOMER (客户 )、STUDENT (学 生 ) 或 者 
AUTOMOBILE (汽车 )); 实体 可 以 是 一 个 人 、 一 个 地 点 、 一 个 物体 、 一 个 事件 或 
是 一 个 概念 ， 实 体 类 型 名 字 代 表 某 种 实体 实例 的 集合 ( 即 STUPENT 可 以 表示 学 生 
Hank Finley、Jean Krebs 等 )。 另 外 ， 有 时 在 阅读 E-R 图 时 使 用 复数 可 读 性 较 好 ， 所 
以 ,给 一 个 实体 类 型 指定 一 个 复数 形式 的 名 词 也 比较 常见 (附带 E-R 图 的 CASE 工具 
库 提供 此 项 功能 )。 例 如 在 图 2-1 中 ,一 个 SUPPLIER (供应 商 ) 可 以 提供 多 种 ITEMs 
(零件 )， 这 里 就 可 以 把 零件 表示 为 复数 。 但 是 ， 要 注意 英文 复数 形式 的 书写 ， 因 为 复 
数 形式 不 总 是 在 一 个 单数 名 词 后面 加 个 “s”。 

在 组 织 中 ， 一 个 实体 类 型 的 名 字 应 该 是 唯一 的 。 因 此 ， 在 一 个 组 织 结 构 中 用 
CUSTOMER 命名 的 实体 类 型 在 另 一 个 组 织 结 构 中 可 以 使 用 CLIENT 命名 (例如 ， 在 
定制 某 个 采购 数据 模型 的 任务 中 )。 这 个 名 字 可 以 描述 组 织 结 构 中 所 有 同 种 类 型 日 与 
该 结构 中 其 他 实体 类 型 名 称 不 同 的 一 类 事物 。 例 如 ， 一 个 物料 PURCHASE ORDER 
(采购 订单 ) 和 一 个 CUSTOMER ORDER (客户 订单 ) 的 含义 是 不 相同 的 ， 因 此 ， 这 
两 种 实体 类 型 都 不 能 被 命名 为 ORDER。 

实体 名 字 尽 量 简 洁 ， 用 尽量 少 的 单词 命名 。 例 如 ， 在 某所 大 学 的 数据 库 中 ， 实 体 类 型 
REGISTRATION (注册 ) 可 以 代表 学 生 注册 一 个 班级 的 事件 ， 如 果 命 名 为 STUDENT 
REGISTRATION FOR CLASS (学 生 注册 类 ) 虽然 也 准确 ， 但 太 哆 叶 了 ， 因 为 在 这 种 
数据 库 情境 中 ， 读 者 很 容易 理解 REGISTRATION 与 其 他 实体 类 型 之 间 的 区 别 。 

在 E-R 图 中 经 常 使 用 缩写 ， 每 个 实体 类 型 名 字 的 缩写 或 简称 必须 唯一 ， 并 且 缩 写作 
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为 一 个 完整 的 实体 名 字 必 须 遵 循 命名 规则 。 

事件 实体 类 型 是 为 事件 结果 命名 的 ， 而 不 是 命名 事件 的 活动 或 过 程 。 例 如 ， 项目 经 理 

给 项 目 中 的 员工 分 配 工作 是 一 个 ASSIGNMENT (分 配 ) 事件 ， 学 生 联 系 他 的 指导 教 

师 咨 询 信 息 是 一 个 CONTACT (交流 ) 事件 。 

e 在 E-R 图 中 ， 同 一 个 实体 类 型 前 后 使 用 的 名 字 应 该 保持 一 致 。 因 此 ， 在 一 个 组 织 中 ， 实 
体 类 型 的 名 字 要 标准 ， 并 且 被 组 织 中 对 同一 类 数据 的 所 有 引用 采用 。 但 是 ， 一 部 分 实 
体 类 型 可 以 有 别名 或 代称 ， 可 以 在 一 个 组 织 中 的 不 同 部 分 使 用 同义词 进行 代替 。 例 如 ， 
实体 类 型 ITEM 可 以 命名 为 MATERIAL (材料 ) (在 生产 中 ) 和 DRAWING (图 纸 ) (在 
工程 中 )。 别 名 可 以 在 数据 库 相 关 的 文档 中 指定 并 说 明 ， 如 CASE 工具 库 中 可 以 指定 。 

还 有 一 些 用 于 定义 实体 类 型 的 特殊 规则 ， 如 下 所 示 : 

® 一 个 实体 类 型 的 定义 通常 以 “ 义 是 ……” 开 始 ， 这 是 陈述 一 个 实体 类 型 的 含义 最 直 
接 、 最 明确 的 语句 。 

。 实体 类 型 定义 应 包含 该 实体 类 型 所 有 实例 的 唯一 特征 。 同 时 对 实体 类 型 标识 符 进行 说 
明 ， 可 以 更 清晰 地 表示 实体 的 含义 。 如 图 2-4b 所 示 的 例子 中 ,“ 费 用 是 用 来 支付 购买 
的 商品 或 服务 的 款项 ， 由 记 账 号 码 标识 。” 

e 实体 类 型 定义 应 该 明确 哪些 实体 实例 属于 实体 类 型 ， 列 出 那些 不 属于 实体 类 型 的 实 
例 。 例 如 ， 如 果 客 户 类 型 定义 为 已 经 从 某 公 司 订购 产品 或 是 直接 接触 过 公司 宣传 、 推 
广 产 品 的 人 或 组 织 ， 那 么 客户 类 型 就 不 包括 那些 从 间接 客户 、 经 销 商 或 代理 商 处 购买 
公司 产品 的 人 或 组 织 。 

e 实体 类 型 定义 通常 包含 创建 和 删除 实体 类 型 实例 时 的 描述 。 如 之 前 的 实例 ， 客 户 实例 

在 个 人 或 组 织 第 一 次 下 订单 时 自动 创建 。 由 于 该 定义 没有 指明 其 他 内 容 ， 这 也 就 隐 含 

地 意味 客户 实体 不 会 被 自动 删除 ， 或 者 只 能 根据 指明 的 数据 清理 规则 从 数据 库 中 删 

除 。 确 定 何 时 删除 实体 实例 的 语句 有 时 被 称 为 实体 类 型 的 记忆 力 。 例 如 ， 可 能 删除 客 

户 实体 类 型 定义 的 语句 可 以 是 :“ 某 个 客户 如 果 超 过 三 年 没有 订单 就 不 再 是 客户 。” 

对 于 某 些 实体 类 型 ， 定 义 必 须 指出 什么 时 候 实体 类 型 的 实例 可 能 会 发 生变 化 。 例 如 ， 

客户 签署 了 某 建筑 公司 的 投标 合同 ， 标 书 就 转换 成 了 合同 。 在 这 种 情况 下 ， 标 书 可 以 

被 定义 为 :“ 革 公司 为 客户 服务 提供 的 法 律 文件 。 在 公司 的 高 级 主管 签署 投标 文件 时 

创建 标书 ; 当 公 司 收 到 客户 主管 签署 的 标书 申请 副本 时 ， 标 书 就 转换 成 合同 的 实例 。 156 

注意 ， 在 实体 类 型 定义 中 可 以 引用 其 他 实体 类 型 名 字 ( 例 如， 标书 的 定义 中 引用 了 实 

体 类 型 名 CUSTOMER )。 

对 于 某 些 实体 类 型 ， 定 义 必须 指明 实体 类 型 实例 要 保留 哪些 历史 记录 。 例 如 ,图 2-1 

中 实体 ITEM 的 特征 可 能 会 随 着 时 间 而 变化 ， 为 此 就 需要 记录 这 些 特 征 值 在 有 效 时 间 

内 变化 的 完整 历史 记录 。 在 后 面 的 例子 中 还 将 看 到 ， 历 史记 录 对 E-R 图 中 实体 类 型 

的 表示 以 及 对 实体 实例 数据 存储 所 产生 的 影 啊 。 


2.3.2 属性 


每 个 实体 类 型 都 有 一 组 与 其 相关 联 的 属性 集合 。 属 性 是 组 织 所 关心 的 实体 类 型 的 性 质 或 
特征 〈 后 面 还 将 看 到 ， 联 系 也 可 以 有 属性 )。 每 个 属性 都 有 一 个 名 词 词 性 的 名 字 。 列 举 一 些 
典型 的 实体 类 型 及 其 相关 属性 : 
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Student ID (学 号 ),Student Name (学 生 姓 名 ),Home Address (家 庭 住址 ),.Phone Number ( 联 
系 电 话 )，Major (专业 ) 
AUTOMOBILE (汽车 )| Vehicle ID (车 架 号 )，Color (颜色 )，Weight (载重 )，Horsepower ( 排 量 ) 
EMPLOYEE (员工 ) Employee ID ( 工 写 ), Employee Name (员工 姓名 ), Payroll Address (账单 地 址 ), Skill (技能 ) 


属性 命名 一 般 首 写 字母 大 写 ， 如 果 名 字 包 含 多 个 单词 ， 则 用 空格 分 隔 且 每 个 单词 的 首 字 
母 都 大 写 。 例 如 , Employee Name 、Student Home Address。E-R 图 中 ， 实 体 描 述 包 含 属性 名 ， 
属性 可 以 和 联系 相关 联 ， 后 面 将 做 介绍 。 注 意 ， 属 性 必须 与 某 个 实体 或 联系 相关 联 。 

如 图 2-5 所 示 ， 联系 实体 DEPENDENT 的 所 有 属性 仅仅 是 指 员工 家 属实 体 的 特征 ， 而 
不 是 员工 实体 的 特征 。 传 统 的 E-R 表示 方法 中 ， 实 体 类 型 (不 仅 包括 弱 实 体 ， 还 包括 任何 实 
体 ) 不 包含 与 之 相关 的 实体 的 属性 (被 称 为 外 属性 )。 例 如 ，DEPENDENT 不 包含 与 之 相关 
的 员工 实体 的 属性 。 根 据 E-R 数据 模型 的 无 元 余 特 性 与 数据 库 中 的 数据 共享 特性 的 一 致 性 ， 
从 数据 库 中 存 取 数 据 时 要 特别 注意 有 关联 关系 的 实体 的 关联 属性 (例如 ，Dependent Name 
和 与 其 关联 的 Employee Name ) 。 

1. 必要 属性 与 可 选 属性 

每 个 实体 (或 实体 类 型 实例 ) 都 可 能 有 一 个 与 实体 类 型 属性 相关 联 的 值 。 每 个 实体 实例 
必须 存在 的 属性 称 为 必要 属性 ， 可 以 为 空 值 的 属性 称 为 可 选 属性 。 例 如 ， 如 图 2-6 所 示 ， 两 
个 STUDENT 实体 (实例) 的 属性 值 中 唯一 可 选 的 属性 是 Major。( 例 子 中 的 学 生 Melissa 
Kraft 就 没有 选择 任何 专业 ; 当然 MIS 是 一 个 伟大 的 职业 选择 ! ) 根据 组 织 的 属性 规则 ， 每 个 
学 生 的 所 有 其 他 属性 必须 有 值 ， 也 就 是 说 ， 系 统 无 法 存储 STUDENT 实体 实例 中 必要 属性 值 
为 空 的 实例 数据 。 在 E-R 图 符号 集中 ， 在 属性 的 前 面 加 “*” 或 者 字体 选用 黑体 表示 必要 属 
性 ， 加 “o” 或 者 用 普通 字体 (本 书 采用 这 种 格式 ) 表示 可 选 属 性 。 一 般 情况 下 ， 必 要 属性 与 
可 选 属性 在 补充 文档 中 进行 说 明 。 第 3 章 中 ， 考 虑 实体 超 类 和 子 类 时 ， 利 用 可 选 属性 可 以 表 
示 不 同类 型 的 实体 (例如 ， 没 有 选择 专业 方向 的 学 生 实体 可 以 作为 学 生 实体 类 型 的 子 类 )。 如 
果 可 选 属性 值 为 空 ， 则 称 为 null。 因 此 ， 每 个 实体 有 一 个 标识 属性 以 及 一 个 或 多 个 其 他 属性 ， 
标识 属性 在 后 续 的 章节 中 将 做 介绍 。 如 果 创 建 实体 时 只 有 一 个 标识 符 属性 ， 则 该 实体 可 能 不 
合法 .这 种 数据 结构 仅仅 简单 容纳 一 些 属性 的 合法 值 列表 ， 最 好 是 将 这 些 数 据 存储 在 数据 库 
之 外 。 


STUDENT (学 生 ) 


实体 类 型 ，STUDENT 


822-24-4456 





图 2-6 学 生 实体 类 型 的 必要 和 可 选 属性 


2. 简单 属性 与 复合 属性 
有 些 属性 可 以 继续 细 分 为 大 二 个 有 意义 的 组 成 部 分 (详细 属性 )。 如 图 2-5 中 的 Name 属 
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性 。 复 合 属 性 是 指 由 若干 个 有 意义 的 详细 属性 组 合成 的 属性 。 如 Address 属性 ， 通 常 可 以 被 
细 分 为 以 下 几 个 属性 : Street Address (街道 地 址 )、City (城市 )、State ( 州 ) 和 Post Code ( 邮 
政 编码 ) 等 。 图 2-7 表示 了 标识 复合 属性 的 符号 。 但 大 多 数 的 画图 工具 没有 标识 复合 属性 的 
符号 ， 所 以 可 以 通过 简单 罗列 复合 属性 中 详细 属性 的 方式 来 表示 。 

复合 属性 体现 了 属性 定义 的 灵活 性 ,用户 可 以 选择 复合 属性 作为 一 个 独立 的 属性 单元 ， 
也 可 以 选择 复合 属性 中 的 某 个 详细 属性 作为 属性 。 例 如 ， 用 户 可 以 选择 Address 作为 复合 属 
性 ， 或 者 选择 地 址 复合 属性 中 的 一 个 详细 属性 〈 如 Street Address) 作为 属性 。 详 细 属 性 必须 
有 组 织 意 义 ， 复 合 属性 是 否 需要 细 分 为 详细 属性 取决 于 用 户 需 求 。 当 然 ， 设 计 人 员 总 是 希望 
能 更 准确 、 更 详细 地 定义 数据 库 的 使 用 模式 。 

简单 (或 原子 ) 属性 是 一 个 在 组 织 中 有 意义 且 不 能 被 分 解 成 更 小 属性 单元 的 属性 。 例 如 ， 
与 AUTOMOBILE (汽车 ) 相关 的 简单 属性 包括 : Vehicle ID、Color、Weight 和 Horsepower 等 。 

3. 单 值 属 性 与 多 值 属性 

图 2-6 显示 了 两 个 有 各 目 属 性 值 的 实体 实例 ， 图 中 每 个 实体 实例 的 属性 都 对 应 一 个 值 ， 
实例 的 属性 也 有 可 能 对 应 多 个 值 。 例 如 图 2-8 中 ，EMPLOYEE 实体 中 的 Skill 属性 值 记录 了 
一 个 员工 具备 一 项 或 多 项 技能 的 情况 。 当 然 ， 有 的 员工 可 能 具备 一 项 以 上 的 技能 ， 例 如 ， 某 
员工 既 具 备 C++ 程序 开发 技能 ， 也 具备 PHP 程序 开发 技能 。 所 以 ， 多 值 属 性 是 指 实体 (或 
联系 ) 实例 中 的 属性 可 以 对 应 多 个 值 。 在 图 2-8 中 的 员工 Skill 属性 的 例子 中 ， 把 属性 名 写 在 
一 对 大 括号 中 表示 多 值 属 性 。 在 微软 的 Visio 软件 中 ， 可 以 从 选项 列表 中 对 实体 属性 进行 编 
辑 (一 般 选 择 多 值 集 )。 还 有 些 E-R 绘图 工具 在 属性 名 后 使 用 “* ”或 补充 文档 来 说 明 多 值 









EMPLOYEE 
Employee ID_ 
Employee Name(. . .) 
Payroll Address(. . .) 
Date Empioyed 
{SkiD 

[Years Employed] | < 











EMPLOYEE 







Employee Address 
(Street Address, City, 
State, Postal Code) 


图 2-7 一 个 复合 属性 的 例子 图 2-8 具有 多 值 属性 (Skill) 与 推导 属性 
(Years Employed) 的 实体 

初学 者 在 刚 接 触 数据 模型 时 容易 混淆 多 值 属性 和 复合 属性 两 个 不 同 的 概念 。 例 如 ，SKill 
是 个 多 值 属性 ， 在 员工 实体 中 可 以 多 次 出 现 。Employee 和 Payroll Address (账单 地 址 ) 是 复 
合 属性 ， 在 每 个 员工 实体 中 只 出 现 一 次 并 且 可 以 被 细 分 为 更 多 的 原子 属性 ， 为 人 简单 起 见 ， 这 
些 在 图 2-8 中 没有 说 明 。 参 考 问题 与 练习 16 复习 复合 属性 与 多 值 属性 的 概念 。 

4. 存储 属性 与 推导 属性 

一 些 用 户 感 兴趣 的 属性 值 可 以 通过 存储 在 数据 库 中 的 其 他 一 些 相 关 属 性 计算 、 推 导 得 出 。 
例如 ,假设 公司 的 EMPLOYEE 实体 类 型 有 一 项 Date Employed (入 职 日 期 ) 属性 。 如 果 用 户 希 
望 得 到 员工 的 工龄 ， 则 可 以 通过 获取 员工 的 人 职 日 期 和 当天 日 期 计算 得 出 。 推 导 属 性 ( derived 
attribute) 是 指 可 以 通过 其 他 相关 的 属性 值 计 算得 出 的 属性 值 (没有 存储 在 数据 库 中 的 附加 数 
据 ， 例 如 当前 日 期 、 当 前 时 间或 由 系统 用 户 提供 的 安全 码 )。E-R 图 中 ， 把 属性 名 字 写 在 一 对 
方 插 号 内 表示 推导 属性 ， 如 图 2-8 所 示 的 Years Employed (工龄 ) 属性 。 有 些 E-R 绘图 工具 会 
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在 推导 属性 名 字 前 加 斜 枉 “/” 来 标识 推导 属性 (这 个 符号 引用 于 UML 中 的 虚拟 属性 )。 

有 很 多 属性 值 是 从 相关 的 实体 属性 值 中 推导 出 来 的 。 例 如 ， 为 Pine Valley 家 具 公 司 的 每 
个 客户 创建 发 票 。Order Total (订单 总 额 ) 是 INVOICE (发 票 ) 实体 的 一 个 属性 ， 表 示 客 户 
订单 的 总 金额 。 订 单 总 额 可 以 通过 “单价 x 出 售 数量 ”计算 推导 得 出 ， 公 式 计 算 推导 的 方 
法 也 类 似 一 种 业务 规则 。 

5. 标识 符 属 性 

标识 符 是 指 能 够 识别 不 同 实体 类 型 实例 的 某 个 属性 (或 联合 属性 ) 值 ， 即 不 存在 两 个 有 相 
同 标识 符 属 性 值 的 实体 类 型 实例 。 前 面 介 绍 的 STUDENT 实体 类 型 的 标识 符 是 Student ID， 而 
AUTOMOBILE 的 标识 符 是 Vehicle ID。 注 意 ， 类 似 Student Name 的 属性 不 能 作为 候选 标识 符 ， 
因为 多 个 学 生 可 能 有 一 样 的 名 字 ， 而 且 名 字 是 可 以 变更 的 。 作 为 候选 标识 符 ， 在 每 个 实体 实例 
中 必须 有 一 个 与 实体 相关 联 的 属性 值 。 在 E-R 图 
上 我 们 在 标识 符 名 下 加 下 划 线 ， 如 图 2-9a 所 示 的 人 nie 
STUDENT 实体 类 型 。 男 一 方面 ， 标 识 符 属性 是 | Student Name(.. ,) 
必要 属性 (标识 符 属性 的 值 不 能 为 空 )， 所 以 标识 ”| …: 
符 属性 用 粗 体 表示 。 有 些 E-R 绘图 工具 在 标识 符 a) 简单 标识 符 属性 
属性 前 加 一 个 构造 型 符号 ， 如 <<ID>>、<<PK>>。 FLIGHT 


此 守 从 (6 Flight ID 
有 些 实体 类 型 无 法 使 用 一 个 (或 原子 ) 属性 。 | humber pa。 | | aa 
Number Of Passengers 


作为 标识 符 ( 即 确保 标识 符 唯一 性 )， 就 选择 两 个 

(或 两 个 以 上 ) 的 属性 联合 作为 标识 符 。 复 合 标 

识 符 是 指标 识 符 自身 由 复合 属性 构成 。 如 图 2-9b b) 复合 标识 符 属性 

所 示 ，FLIGHT (航班 ) 实体 的 Flight (航班 ) ID 图 2-9 简单 标识 符 与 复合 标识 符 属性 
为 复合 标识 符 ， 航 空 公司 规定 飞行 航班 的 航班 ID 必须 唯一 ， 航 班 ID 由 Flight Number ( 航 
班 号 ) 和 Flight Date (航班 日 期 ) 两 个 属性 共同 组 成 。 一 般 来 说 ， 使 用 下 划 线 来 表示 复合 属 
性 (航班 ID ) 为 标识 符 ， 而 其 组 成 属性 不 需要 用 下 划 线 标识 。 但 也 有 学 者 认为 复合 标识 符 
“打破 了 使 用 简单 标识 符 的 平衡 ” 。 上 例 中 ， 即 使 有 航班 ID 属性 ， 数 据 建 模 时 还 是 会 问 一 个 
问题 :“ 会 不 会 出 现 两 个 航班 有 一 样 的 航班 号 、 一 样 的 航班 日 期 呢 ? ”如果 会 ， 那 么 为 了 保证 
航班 的 唯一 性 ， 就 需要 再 加 一 个 属性 构成 复合 标识 符 。 

实体 可 以 有 多 个 候选 标识 符 。 如 果 有 多 个 候选 标识 符 ， 那 么 在 设计 时 必须 选择 其 中 一 个 
作为 标识 符 。Bruce ( 1992 ) 建议 选择 标识 符 的 标准 如 下 : 

1 ) 选择 在 实体 实例 的 生命 周期 内 不 会 被 改变 其 值 的 属性 作为 标识 符 。 例 如 ， 合 并 员工 
姓名 和 账单 地 址 (即使 是 唯一 的 ) 作为 员工 的 标识 符 就 不 是 一 个 很 好 的 选择 ， 因 为 在 员工 的 
任期 内 ， 员 工 姓 名 和 账单 地 址 会 很 容易 改变 。 

2 ) 选择 实体 实例 中 有 有 效 值 且 不 为 空 (或 未 知 ) 的 属性 作为 标识 符 。 如 果 标 识 符 是 个 复 
合 属 性 ， 例 如 图 2-9b 中 的 Flight ID ， 则 要 确保 组 成 标识 符 的 所 有 部 分 的 属性 值 都 有 效 。 

3 ) 避免 使 用 可 以 表示 分 类 、 位 置信 息 等 所 谓 的 智能 标识 符 (或 键 )。 例 如 ， 仓 库 的 位 置 由 
标识 符 值 的 前 两 位 编码 表示 ， 但 环境 一 旦 发 生变 化 ， 编 码 也 随 之 变化 ， 这 时 标识 符 值 就 会 失效 。 

4 ) 尽量 使 用 单一 属性 代理 标识 符 蔡 代 复 合 属性 标识 符 。 例 如 ， 一 个 由 主队 和 客队 联合 
构成 Game 实体 类 型 可 以 由 属性 名 为 Game Number 的 属性 替代 。 
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6. 命名 与 定义 属性 

除了 符合 一 般 规则 外 ， 属 性 命名 还 有 一 些 特殊 的 要 求 ， 如 : 

e 属性 名 为 单数 名 词 或 名 词 短语 (如 Customer ID、Age (年 龄 )、Product Minimum 
Price (最 低产 品 价格 )、Major 等 )。 属 性 用 数据 值 体 现 ， 是 实体 的 概念 或 本 质 特 征 ， 
概念 和 本 质 特征 由 名 词 描述 。 

e 属性 名 应 该 唯一 。 同 一 个 实体 类 型 中 不 允许 两 个 属性 名 字 相 同 。 为 了 更 清晰 地 描述 数 
据 模 型 ， 模 型 中 所 有 实体 类 型 中 不 允许 两 个 属性 名 称 相同 。 

e 属性 的 命名 应 该 是 唯一 的 、 清 晰 的 ， 每 个 属性 名 都 遵守 标准 格式 。 例 如 ， 大 学 成 绩 管 
理 系 统 中 设置 Student GPA 为 属性 命名 的 标准 格式 ， 而 非 GPA of Student。 每 个 组 织 
都 会 设置 一 个 统一 的 属性 命名 格式 。 常 见 的 格式 有 : [ 实体 类 型 名 {[ 约束 ]}] 类 ,其 
中 [...] 为 选项 ，{...} 表示 可 重复 的 选项 。 实 体 类 型 名 是 与 实体 属性 相关 联 的 实体 名 。 
在 实体 的 组 织 定 义 中 ， 类 是 构成 实体 的 性 质 或 特征 (或 特征 缩写 ) 的 短语 集合 。 例 
如 ， 类 的 值 (和 关联 的 缩写 ) 可 以 表示 为 Name (NM)、Identifier (ID)、Date (Dt) 或 
Amount ( Amt)。 约束 是 在 类 的 组 织 定 义 中 限定 类 的 短语 集合 。 例 如 ， 员 工 生日 和 入 
职 时 间 这 两 个 属性 必须 符合 前 后 顺序 的 约束 条 件 。 

e 在 组 织 使 用 的 名 字 中 ， 不 同 实体 类 型 中 的 相似 属性 应 该 使 用 相同 的 约束 和 类 。 例 如 ， 
教师 和 学 生 的 户籍 应 该 分 别 为 目前 教 职 工 居 住 的 城市 名 称 和 学 生 目 前 就 读 学 校对 应 的 
城市 名 称 。 

还 有 一 些 定 义 属性 要 遵循 的 特定 规则 : 

e 属性 定义 要 陈述 属性 是 什么 及 其 重要 性 。 属 性 的 定义 经 常会 与 属性 名 等 价 ， 例 如 学 生 
居住 城市 名 (Student Residence City Name) 可 以 被 定义 为 “学 生 永 久居 住 的 城市 名 称 ”。 

e 属性 定义 应 该 明确 指出 属性 值 包 含 和 不 包含 的 内 容 。 例 如 ,“ 员 工 月 薪 是 指 员 工 所 拓 
住 国 家 每 个 月 发 放 的 货币 金额 上 总和， 不 包含 任何 福利 、 奖 金 、 报 销 以 及 特殊 费用 。 

e 在 CASE 工具 库 中 可 以 用 属性 的 别名 或 替代 名 字 存 储 数 据 定 义 ， 但 在 定义 或 是 文档 
中 ， 这 个 属性 应 该 是 唯一 的 并 与 定义 保持 一 致 。 

e 属性 定义 中 声明 属性 值 的 来 源 可 以 使 数据 的 含义 更 清晰 。 例 如 ,“ 标 准 的 客户 行业 代 

码 是 客户 业务 类 型 的 标识 ， 这 个 代码 值 来 源 于 贸易 委员 会 提供 的 标准 值 集 合 ， 该 值 可 

以 通过 购买 由 FTC (美国 联邦 贸易 委员 会 ) 每 年 提供 的 名 为 SIC 的 光盘 来 获取 。 

为 了 保持 数据 的 完整 性 ， 属 性 定义 (或 CASE 工具 库 中 的 其 他 说 明 ) 时 必须 定义 属性 

值 是 可 选 属 性 还 是 必要 属性 。 例 如 ,“ 员 工 部 门 ID 是 分 配给 员工 所 在 部 门 的 标识 符 。 

员工 在 刚 被 录用 还 没有 被 分 配 到 具体 部 门 时 ， 这 个 属性 的 初始 值 就 是 一 个 可 选 属性 ， 

但 一 旦 员工 被 分 配 到 一 个 部 门 ， 那 么 员工 信息 就 始终 与 被 分 配 的 部 门 对 应 。” 

属性 的 定义 (或 其 他 CASE 工具 库 中 的 说 明 ) 也 可 以 标识 属性 值 在 实体 实例 生命 周期 内 

的 变化 情况 ， 这 条 业务 规则 保证 了 数据 的 完整 性 。 非 智能 标识 符 的 值 不 会 随时 间 变 化 。 

若 给 实体 实例 定义 新 的 非 智能 标识 符 ， 必 须 先 将 这 个 实例 删除 ， 然 后 再 重新 创建 。 

e 多 值 属性 的 定义 应 该 标识 出 实体 实例 属性 值 允 许 出 现 的 最 小 值 和 最 大 值 。 例 如 ,“ 员 
工 技能 名 是 员工 具备 的 技能 名 字 的 列举 ， 而 每 个 员工 至 少 拥有 一 项 技能 ， 并 且 员 工 可 
以 选择 列举 出 不 超过 10 项 的 技能 。” 多 值 属 性 定义 最 大 值 和 最 小 值 的 原因 是 系统 需要 
保存 属性 值 变化 的 历史 记录 。 例 如 ,“ 某 公司 规定 ， 某 员工 一 天 工作 的 时 间 低 于 规定 
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工作 时 间 的 50% 就 被 视 为 旷工 -“ 员 工 年 度 旷 工 天 数 ” 是 指 员 工 在 一 年 内 旷工 的 总 天 
数 。 在 员工 为 公司 工作 期 间 ， 每 年 的 这 个 值 将 一 直 被 公司 保存 。” 

e 属性 的 定义 可 以 表示 属性 之 间 的 联系 。 例 如 ,“ 员 工 假期 天 数 是 指 全 年 员工 带 薪 休假 
的 总 天 数 。 如 果 员 工 类 型 中 有 “免税 ”的 属性 ， 那 么 员工 全 年 可 休 天 数 由 带 有 员工 工 
龄 属性 的 公式 计算 得 出 ”。 


2.4 联系 建 模 


联系 是 连接 E-R 模型 中 各 组 件 的 纽带 。 直 观 地 说 ， 联 系 是 个 动词 短语 名 称 ， 是 表示 数据 
模型 中 有 意义 的 一 个 或 多 个 实体 类 型 的 实例 之 间 交 互 、 关 联 的 情况 。 联 系 及 其 特征 ( 度 和 基 
数 ) 表示 业务 规则 ， 通 常 表示 E-R 图 中 复杂 的 业务 规则 。 换 句 话 来 说 ， 联 系 让 数据 建 模 变 得 
非常 有 趣 ， 同 时 对 保持 数据 库 的 完整 性 也 起 到 关键 作用 。 

为 了 更 清楚 地 了 解 联系 ， 请 务必 区 分 联系 类 型 和 联系 实例 。 为 了 说 明 这 两 者 的 区 别 ， 我 
们 以 EMPLOYEE 和 COURSE (课程 ) 实体 类 型 为 例 进行 分 析 ， 其 中 COURSE 代表 员工 可 
以 参加 的 培训 课程 科目 。 为 了 记录 员工 已 经 完成 培训 的 课程 ， 在 员工 和 课程 两 个 实体 类 型 之 
间 定 义 了 Completes (完成 ) 联系 ( 见 图 2-10a)。 每 个 员工 可 以 选择 完成 多 门 课 程 (0、!1 或 
多 门 课程 ) 培训 ， 而 一 门 课程 可 以 由 任意 多 名 员工 (0、1 或 很 多 员工 ) 选择 完成 培训 ， 所 以 
Completes 联系 是 一 种 多 对 多 的 联系 。 例 如 ， 在 图 2-10b 中 ,员工 Melton 已 经 完成 了 三 门 课 
程 (C++、COBOL 和 Perl) 的 培训 。SQL 评 程 由 两 名 员工 〈Celko 和 Gosling) 完成 培训 ,但 
是 没有 一 名 员工 完成 Visual Basic 课程 的 培训 。 


< Completess > 














EMPLOYEE 





COURSE 








Employee ID Course ID 
Employee Name(...) [一 ~ Course Title 
Birth Date {Topic} 


a) 联系 的 类 型 (完成 ) 


员工 完成 诬 程 
加 pe 
Melton = Java 







Ritchie ~~_ COBOL 


°° 
PE 
全 


Visual Basic 


Pd 
a 
加 
» 
3 
四 
. 
a 
3 





每 条 线 表 示 “ 完 成 ”联系 类 
型 的 一 个 实例 (一 共 10 个 ) 


b) 联系 的 实例 
图 2-10 联系 的 类 型 及 其 实例 
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在 上 面 的 例子 中 ，Completes 联系 关联 了 两 个 实体 类 型 (EMPLOYEE 和 COURSE), 一 
般 情况 下 ， 任 意 数量 的 实体 类 型 (一 个 或 者 多 个 ) 都 可 以 通过 联系 进行 连接 。 

组 织 中 实体 实例 之 间 有 事件 发 生 才 存在 联系 ， 因 此 ， 使 用 动词 短语 来 标识 联系 比较 合 
适 ， 而 且 动 词 短语 应 该 是 描述 性 的 一 般 现 在 时 态 。 然 而 ， 联 系 的 表示 还 有 很 多 其 他 方法 。 有 
些 数据 建 模 人 员 选 择 对 联系 的 两 个 方向 上 各 用 一 个 联系 名 字 的 方式 表示 。 一 个 或 两 个 动词 短 
语 具有 相同 的 结构 意义 ， 因 此 ， 只 要 在 每 个 方向 上 联系 的 意思 清晰 ， 可 选择 两 种 格式 之 一 。 
本 章 及 后 续 章 节 主 要 使 用 “单个 动词 短语 标签 ”来 表示 实体 之 间 的 联系 。 


2.4.1 联系 的 基本 概念 和 定义 


联系 类 型 (relationship type) 是 指 实体 类 型 之 间 有 意义 的 关联 。 有 意义 的 关联 一 词 隐 含 
了 联系 可 以 解答 仅仅 在 单个 实体 类 型 上 不 能 回答 的 问题 。 在 如 图 2-10a 所 示 的 例子 中 ， 联 系 
类 型 的 名 称 在 两 个 关联 的 实体 之 间 的 横 线 上 面 标注 ， 而 在 图 2-1 中 则 是 直接 用 两 个 实体 名 表 
示 实 体 类 型 之 间 的 联系 。 建 议 使 用 有 意义 且 简 短 的 描述 性 动词 短语 作为 联系 名 。( 本 市 将 站 
述 更 多 关于 联系 命名 和 定义 的 内 容 。) 

联系 实例 (relationship instance) 是 指 实体 实例 之 间 的 关联 ， 每 个 联系 实例 都 关联 一 个 
来 自 参 与 实体 类 型 的 实体 实例 ( Elmasri and Navathe，1994 )。 例 如 ， 在 图 2-10b 中 ，10 条 
直线 中 的 每 条 线 都 表示 一 个 员工 与 一 门 课程 之 间 的 联系 实例 ， 同 时 表明 员工 已 经 完成 了 这 门 
课程 的 培训 。 例 如 ， 员 工 Ritchie 和 课程 Perl 之 间 的 连 线 就 代表 一 个 已 经 完成 课程 培训 的 联 
系 实例 。 

1. 联系 上 的 属性 

通过 前 面 的 学 习 可 知 实体 有 属性 ， 而 多 对 多 (或 者 一 对 一 ) 的 联系 也 可 以 有 属性 。 例 如 ， 
假设 在 组 织 中 需要 记录 员工 完成 每 门 培 训 课 程 的 日 期 (年 和 月 )， 就 需要 一 个 Date Completed 
(完成 日 期 ) 的 属性 。 如 表 2-1 所 示 的 日 期 样 例 。 

表 2-1 显示 完成 日 期 的 实例 

Employee Name Date Completed 

Melton Celko 03/2010 


Melton COBOL 02/2010 09/2009 


在 E-R 图 中 如 何 标注 Date Completed 属性 呢 ? 参照 图 2-10a， 注 意 ，Date Completed 并 
没有 与 EMPLOYEE 或 COURSE 实体 有 关联 ， 这 是 因为 Date Completed 是 Completes 联系 
的 性 质 ， 与 EMPLOYEE 和 COURSE 实体 的 属性 无 关 。 换 句 话说 ，Completes 联系 的 每 个 实 
例 都 有 一 个 Date Completed 属性 值 。 如 表 2-1 中 名 为 Melton 的 员工 在 2009 年 6 月 完成 了 
Course Title (课程 名 ) 为 C++ 的 培训 课程 ， 这 就 是 一 个 Completes 联系 实例 。 

图 2-11a 是 员工 完成 培训 课程 加 强 版 的 E-R 图 。 图 中 ，Date Completed 属性 标注 在 直线 
连接 的 Completes 联系 上 方 的 矩形 框 内 。 如 果 联 系 还 有 其 他 属性 ， 那 么 也 可 以 添加 到 和 矩形 框 
内 ， 如 Course Grade (课程 成 绩 )、Instructor (导师 )、Room Location (教室 位 置 ) 等 。 

非常 有 趣 的 是 ， 一 对 多 的 联系 没有 属性 ， 如 图 2-5 中 的 Carries。 人 例如， 家属 日 是 指 员工 
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携带 家 属 的 日 期 ， 与 完成 日 期 相似 。 每 个 家 属 都 只 能 与 一 个 员工 关联 ， 这 样 家 属 的 日 期 特征 
就 明确 了 。( 例 如 ， 对 一 个 给 定 的 家 属 ， 家属 日 不 会 随员 工 而 变化 。) 所 以 ， 如 果 你 曾经 极力 
想 让 一 对 多 的 联系 有 一 个 属性 ， 那 么 现在 请 你 停止 这 种 想法 。 

2. 关联 实体 

联系 有 一 个 或 多 个 属性 时 ， 为 了 更 清晰 地 表示 联系 ， 建 议 在 数据 库 设 计时 将 联系 表示 成 
一 个 实体 类 型 。 为 了 强调 这 一 点 ， 大 多 数 的 E-R 绘图 工具 要 求 将 这 样 的 属性 认定 在 实体 类 
型 中 。 关 联 实体 (associative entity) 是 指 与 一 个 或 多 个 实体 类 型 的 实例 关联 且 具 有 这 些 实体 
实例 间 联 系 的 特有 属性 的 实体 类 型 。 图 2-11b 中 ,用 圆 角 和 矩形 表示 “证 书 ( CERTIFICATE) 
关联 实体 。 但 大 多 数 的 E-R 绘图 工具 中 没有 为 关联 实体 设置 专门 的 表示 符号 。 联 系 名 字 ( 动 
词 ) 通常 会 被 转换 为 名 词性 的 实体 名 ， 因 此 关联 实体 常 使 用 动 名 词 表 示 。 关 联 实体 代表 的 是 
一 种 联系 ， 所 以 图 2-11b 中 不 需要 在 关联 实体 和 强 实体 之 间 的 直线 上 方 标注 联系 名 字 。 大 多 
数 E-R 绘图 工具 绘制 的 关联 实体 图 都 与 图 2-11c 所 示 的 用 Visio 绘制 的 关联 实体 图 类 似 。 在 
Visio 中 ， 由 于 CERTIFICATE 的 标识 符 不 包含 与 其 有 关联 的 实体 的 主 标识 符 (有 Certificate 
Number (证 书号 ) 就 足够 了 )， 所 以 与 CERTIFICATE 有 联系 的 线 是 虚线 。 


Date Completed 


















EMPLOYEE 
Employee ID 
Employee Name(. . .) 
Birth Date 


COURSE 
| 和 Course ID 
~ Course Title 
Completes 


{Topic} 



























a) 联系 上 的 属性 


EMPLOYEE CERTIFICATE COURSE 
Employee ID A| Certificate Number Ss Course ID 


Employee Name(. . .) Date Completed Course Title 
Birth Date {Topic} 





b) 关联 实体 (证 书 ) 


pK Certificate Number 


[|， Date Completed 


c) 用 微软 Visio 绘制 的 一 个 关联 实体 
图 2-11 关联 实体 


如 何 判 断 联系 是 否 可 以 转换 为 关联 实体 类 型 呢 ? 存在 以 下 4 个 判定 条 件 : 

1 ) 参与 构成 联系 的 实体 类 型 之 间 是 “多 对 多 ”的 联系 。 

2 ) 关联 实体 类 型 对 最 终 用 户 有 独立 意义 并 能 通过 单一 属性 标识 符 标 识 该 关联 实体 。 

3 ) 除 标识 符 属 性 外 ， 关 联 实体 还 有 一 个 或 多 个 其 他 属性 。 

4 ) 关联 实体 可 以 参与 一 个 或 多 个 联系 ， 但 联系 本 身 独 立 于 与 其 相关 的 所 有 关联 实体 。 

图 2-11b 表示 把 Completes 联系 转换 为 关联 实体 类 型 的 过 程 。 本 例 中 ， 公 司 培 训 部 门 
为 每 个 完成 课程 培训 的 员工 颁发 结业 证 书 ， 因 此 ，CERTIFICATE 实体 对 完成 培训 课程 的 
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用 户 是 有 独立 意义 的 。 男 外 ， 每 个 证 书 都 有 一 个 编号 ( Certificate Number) 作为 证 书 实体 
的 标识 符 ，Date Completed 也 是 证 书 的 属性 。 注 意 ， 在 图 2-11b 和 Visio 版 本 的 图 2-11c 
中 ， 参 与 和 CERTIFICATE 关联 的 两 个 联系 实体 是 EMPLOYEE 和 COURSE。 实 例 表 示 了 
将 一 个 多 对 多 联系 (图 2-11a 中 的 Completes) 转换 为 两 个 一 对 多 (图 2-11b 和 图 2-11c 中 与 
CERTIFICATE 关联 的 ) 联系 的 过 程 。 

需要 注意 ， 把 联系 转化 为 关联 实体 类 型 时 会 导致 联系 符号 的 改变 ， 即 基数 为 “多 ”的 标 
识 会 终止 在 关联 实体 处 ， 而 不 是 在 每 个 参与 实体 类 型 处 。 图 2-11 显示 了 一 个 员工 可 以 完成 
一 门 或 多 门 培训 课程 (图 2-11a 中 的 符号 A)， 同 时 可 以 获得 多 本 结业 证 书 (图 2-11b 中 的 符 
号 A); 一 门 课程 被 一 名 或 多 名 员工 选修 完成 (图 2-11a 中 的 符号 B)， 那 么 就 会 有 多 个 证 书 
颁发 给 员工 (图 2-11b 中 的 符号 B)。 问 题 与 练习 20 是 图 2-11a 的 有 趣 变形 ， 强 调 把 多 对 多 
联系 转换 到 关联 实体 时 应 遵循 的 规则 ， 如 Completes 联系 。 


2.4.2 联系 的 度 


联系 的 度 是 参与 联系 的 实体 类 型 的 数量 。 图 2-11 中 Completes 联系 关联 了 两 个 实体 类 
型 ， EMPLOYEE 和 COURSE， 所 以 Completes 联系 的 度 为 2。 在 E-R 数据 模型 中 常见 的 
联系 的 度 为 一 元 ( 度 为 1 )、 二 元 ( 度 为 2 ) 和 三 元 ( 度 为 3 )。 更 高 的 度 在 联系 中 也 可 能 存 
在 ， 但 是 在 实际 应 用 中 比较 少见 ， 所 以 本 书 仅 讨 论 上 面 三 种 情况 。 图 2-12 中 有 一 元 、 二 元 、 
三 元 联系 的 例子 。( 为 了 表示 人 简洁， 图 中 只 表示 了 实体 间 联 系 的 度 ， 没 有 对 实体 属性 进行 
标注 。) 


| ls Married To A Manages my Stands After 
PERSON | EMPLOYEE TEAM 


一 对 一 一 对 多 = 
a) 一 元 联系 
ls Assigned PARKING PRODUCT Contains 一 
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一 对 一 一 对 多 
Registers For 一 
STUDENT [SDS < 人 COURSE 
多 对 多 
b) 二 元 联系 
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VENDOR 


例如 ， 一 个 销售 商 X 通 过 次 日 的 航班 
供应 单价 为 $ 美元 的 C 部 件 到 YY 仓库 的 
实例 







Shipping Mode 
Unit Cost 
c) 三 元 联系 
图 2-12 不同 度 的 联系 的 例子 
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图 2-12 说 明 数 据 库 设计 没有 通用 的 数据 模型 ， 任 何 一 种 数据 模型 都 是 为 了 表示 某 一 个 
特殊 的 情境 。 观 察 图 2-12a 中 的 Manages (管理 ) 联系 ， 某 些 公司 中 一 个 员工 很 可 能 被 许多 
其 他 员工 管理 ( 即 一 个 矩阵 组 织 )。 因 此 ， 在 进行 E-R 模型 建 模 时 ， 必 须 了 解数 据 模型 中 特 
殊 的 业务 规则 ， 才 能 建立 更 合理 的 数据 模型 。 

1. 一 元 联系 

一 元 联系 ( unary relationship) 是 指 只 有 一 种 实体 类 型 的 实例 间 的 联系 (一 元 联系 也 可 
称 为 递归 联系 )。 图 2-12a 中 有 三 个 一 元 联系 的 案例 。 第 一 个 案例 中 ， 实 体 类 型 是 PERSON 
(人 ) 的 实例 之 间 铬 选择 Is Married To 联系 则 是 一 对 一 的 联系 ; 一 个 人 只 有 在 已 婚 状态 下 才 
需要 记录 婚姻 联系 ， 那 么 当 婚姻 状况 发 生变 化 时 是 否 需 要 保存 每 个 人 的 婚姻 状况 的 历史 记 
录 呢 ? 见 课 后 问题 与 练习 12 中 业务 规则 及 其 对 Is Married To 联系 的 影响 。 第 二 个 案例 中 ， 
EMPLOYEE 实体 类 型 实例 之 间 存 在 一 对 多 的 Manages 联系 ， 通 过 这 种 联系 可 以 标识 多 名 员 
工 癌 某 位 经 理 汇报 的 情形 。 第 三 个 案例 是 利用 一 元 联系 来 表示 一 个 序列 、 循 环 或 优先 队列 的 
实例 。 案 例 中 ， 运 动 队 的 排名 与 其 在 联赛 中 的 排名 有 关 (Stands After 联系 )。( 注 意 : 在 这 些 
例子 的 讨论 中 ， 忽 略 掉 这 些 联系 是 必要 的 还 是 可 选 基数 ， 或 者 同一 个 实体 实例 是 否 可 以 在 同 
一 个 联系 实例 中 重复 。 在 本 章 的 后 续 部 分 将 讨论 必要 基数 和 可 选 基数 。) 

图 2-13 中 还 显示 了 另 一 个 名 为 材料 清单 结构 (BOM 结构 ) 的 一 元 联系 。 工 业 产品 由 零 
部 件 组 装 而 成 ， 换 句 话 说， 产品 由 零 部 件 和 零件 组 成 。 如 图 2-13a 所 示 ， 我 们 可 以 用 多 对 多 
的 一 元 联系 表示 这 种 结构 。 在 这 幅 图 中 ，ITEM (零件 ) 实体 类 型 表示 各 种 类 型 的 组 件 ， 用 
Has Components (组 成 ) 联系 来 表示 低级 别 和 高 级 别 零 件 之 间 的 关联 关系 。 

图 2-13b 中 显示 了 两 个 材料 清单 结构 的 实例 。 每 幅 图 展示 了 每 个 零件 的 直接 组 件 以 及 
需要 的 组 件数 量 。 例 如 ， 和 零件 TX100 包含 零件 BR450 (数量 为 2) 和 零件 DX500 (数量 为 
1 )。 可 以 很 容易 地 验证 这 是 个 多 对 多 的 关联 。 多 数 零件 都 包含 一 个 以 上 类 型 的 组 件 〈 如 零件 
MX300 有 三 种 类 型 的 直接 组 件 : HX100、TX100 以 及 WX240。 其 中 一 部 分 组 件 还 被 用 来 
组 合成 更 高 级 别 的 部 件 。 例 如 ， 零 件 WX240 被 用 于 组 成 零件 MX300 和 零件 WX340， 用 在 
不 同 级 别 的 材料 清单 中 。 例 如 ， 多 对 多 的 联系 可 以 保证 相同 结构 的 WX240 零 部 件 (未 显示 ) 
可 以 构造 其 他 不 同类 型 的 零件 。 

Has Components 联系 具有 产品 的 Quantity (数量 ) 属性 ， 表 明 可 以 将 Has Components 
联系 转换 为 关联 实体 。 图 2-13c 显示 了 BOM STRUCTURE ( BOM 结构 ) 实体 类 型 ， 由 
ITEM 实体 类 型 的 实例 之 间 的 联系 构成 。BOM STRUCTURE 中 的 第 二 个 属性 (名 为 Effective 
Date (有 效 日 期 )) 用 来 记录 某 个 零件 第 一 次 装配 时 的 日 期 ， 需 要 记录 下 历史 数据 的 值 时 
Effective Date 常常 是 必需 的 。 第 9 章 中 将 阐述 这 种 可 以 表示 层次 结构 的 一 元 联系 的 数据 模 

2. 二 元 联系 

二 元 联系 (Binary Relationship) 是 两 个 实体 类 型 的 实例 之 间 的 联系 ， 这 种 联系 是 数据 建 
模 中 最 常见 的 联系 类 型 。 图 2-12b 表示 了 三 个 二 元 联系 的 例子 。 第 一 个 例子 (一 对 一 ) 表示 
可 以 为 一 个 员工 分 配 一 个 停车 位 ， 而 每 个 停车 位 也 只 能 被 分 配给 一 个 员工 。 第 二 个 例子 (一 
对 多 ) 表示 一 条 产品 流水 线 可 以 包含 多 个 产品 ， 但 每 个 产品 只 能 由 一 条 产品 流水 线 生 产 。 第 
三 个 例子 (多 对 多 ) 表示 一 个 学 生 可 以 注册 一 门 以 上 的 课程 ， 同 时 一 门 课程 也 可 以 有 多 名 学 
生 注 册 。 
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狼 Has Components 


ee 
V 
a) 多 对 多 的 联系 


Mountain Bike 
MX300 


Transmission 
System TX100 
Qty: 1 


Tandem Bike 
TR425 


”| Bars Be | | 
HT200 Be TX101 WX340 
”| 2 | | 2 















Handle Bars 
HX100 
Qty: 1 


Wheels 
WX240 
Qty: 2 



















Brakes Derailer Brakes Derailer Wheels Wheel Trim 
BR450 DX500 BR250 DX500 WX240 WT100 
Qty: 2 Qty: 1 Qty: 2 Qty: 1 Qty: 2 Qty: 2 


b) 两 个 零件 的 材料 清单 结构 (BOM) 实例 









Has Components 


BOM STRUCTURE 
Effective Date 


Quantity 


Used ln Assemblies 


c) 关联 实体 
图 2-13 “材料 清单 结构 表示 图 


3. 三 元 联系 

三 元 联系 (ternary relationship) 是 三 个 实体 类 型 的 实例 之 间 的 并 发 联系 。 图 2-12c 显 
示 了 典型 的 商业 情境 中 使 用 三 元 联系 的 示例 。 示 例 中 ， rie pe wa 
Supplies (供应 ) 联系 用 于 记录 一 个 销售 商 给 指定 仓库 供应 指定 的 部 件 。 因 此 ， 这 里 有 三 
实体 类 型 : VENDOR (销售 商 )、PART (部 件 ) 和 WAREHOUSE (仓库 )。 ehh 
两 个 属性 : Shipping Mode (发 货 方式 ) 和 Unit Cost (单价 )。 例 如 ,一 个 销售 商 X 通过 次 日 
的 航班 供应 单价 为 5 美元 的 C 部 件 到 Y 仓库 的 实例 。 

注意 ， 不 要 把 一 个 三 元 联系 混同 于 三 个 二 元 联系 。 例 如 ，Unit Cost 是 图 2-12c 中 
Supplies 联系 的 属性 。Unit Cost 和 三 个 实体 类 型 之 间 任 何 一 个 二 元 联系 都 没有 关联 ， 如 
PATR 和 WAREHOUSE 之 间 。 因 此 ， 如 果 销 售 商 X 运送 单价 为 8 美元 的 部 件 C 的 记录 ， 乔 
记录 中 没有 说 明 部 件 被 运送 到 哪个 仓库 存储 ， 那 么 这 是 一 条 不 完整 的 数据 记录 。 

如 图 2-12c 所 示 ，Supplies 联系 有 属性 存在 ， 表 明 供应 联系 可 以 转换 为 关联 实体 类 型 。 
图 2-14 是 图 2-12c 所 示 的 三 元 联系 的 变形 ( 比 图 2-12c 模型 更 清晰 )。 图 2-14 中 (关联) 实 
体 类 型 SUPPLY SCHEDULE (供应 计划 ) 替代 了 图 2-12c 中 的 Supplies 联系 。 显 然 SUPPLY 
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SCHEDULE 实体 类 型 独立 于 用 户 。 但 需要 注意 的 是 ， 没 有 给 SUPPLY SCHEDULE 分 配 标 
识 符 ， 这 在 数据 建 模 中 是 允许 的 。 如 果 在 E-R 建 模 阶段 没有 给 关联 实体 分 配 标识 符 ， 那 么 
在 逻辑 建 模 阶段 会 给 关联 实体 分 配 标识 符 (在 第 4 章 中 讨论 )。 标 识 符 是 参与 联系 的 实体 类 
型 的 标识 符 共同 构成 的 复合 标识 符 。( 在 上 面 的 例子 中 ，SUPPLY SCHEDULE 的 标识 符 由 
PART、VENDOR 和 WAREHOUSE 三 者 的 标识 符 联合 构成 。) 思考 一 下 ， 还 有 哪些 属性 有 可 
能 与 SUPPLY SCHEDULE 实体 有 关联 ? 





Unit Cost 





VENDOR WAREHOUSE 
图 2-14 一 个 三 元 联系 关联 实体 


和 前 面 提 到 的 一 致 ， 这 里 没有 标注 从 SUPPLY SCHEDULE 到 其 他 三 个 实体 的 直线 。 这 
是 因为 这 些 直 线 不 能 表示 二 元 联系 。 正 如 前 面 所 提 到 的 ， 要 保持 图 2-12c 中 三 元 联系 含义 相 
同 ， 就 不 能 将 供应 联系 拆 分 为 三 个 二 元 联系 。 

三 元 联系 还 要 遵循 一 些 规则 : 将 所 有 三 元 (或 更 高 阶 ) 联系 转化 为 如 图 2-14 中 所 示 的 关 
联 实体 。Song 等 人 (1995 ) 提出 参与 约束 (后面 章节 将 介绍 基数 约束 ) 不 能 通过 给 定 的 联系 
属性 连 线 符号 精确 地 表示 一 个 三 元 联系 。 然 而 ， 通 过 将 约束 转换 为 关联 实体 ， 可 以 准确 地 表 
示 这 些 约束 。 大 多 数 E-R 绘图 工具 (包括 最 常用 的 CASE 工具 ) 都 无 法 表示 三 元 (或 更 高 阶 ) 
联系 。 所 以 ， 没 有 明确 的 规定 要 求 必 须 使 用 这 些 工 具 将 一 个 关联 实体 和 三 个 二 元 联系 来 表示 
三 元 联系 ， 并 且 每 个 二 元 联系 实体 类 型 都 是 强制 性 关联 关系 。 


2.4.3 ”属性 或 实体 


有 时 在 表示 数据 时 会 遇 到 该 将 数据 表示 成 属性 还 是 实体 的 困惑 。 图 2-15 的 案例 中 ， 有 
三 种 情况 可 以 用 实体 类 型 表示 属性 。 图 中 左 侧 使 用 E-R 文本 符号 ， 右 侧 使 用 Visio 中 的 符 
号 。 设 计 模 型 时 会 遇 到 不 同 的 模型 使 用 不 同 风格 来 表示 数据 ， 所 以 学 会 在 不 同 的 表示 方 
法 中 正确 阅读 E-R 图 (ERD) 非常 重要 。 图 2-1$a 中 , 一 门 课程 潜在 的 多 个 必要 条 件 (在 
Attribute (属性 ) 单元 中 显示 为 多 值 属性 ) 可 能 还 是 课程 (一 门 课程 可 能 是 其 他 课程 的 预 修 
课程 )。 因 此 ， 预 修 课 程 可 以 看 作 是 课程 间 的 材料 清单 结构 (在 Relationship & Entity (联系 
和 实体 ) 单元 中 表示 )， 而 不 是 COURSE (课程 ) 的 一 个 多 值 属 性 。 预 修 课程 可 以 用 BOM 结 
构 表 示 ， 意 味 着 查找 一 门 课程 的 预 修 课 程 以 及 查找 哪些 课程 是 一 门 课 程 的 预 修 课程 都 由 实体 
类 型 之 间 的 联系 进行 处 理 。 若 一 门 课程 的 预 修 课程 是 多 值 属 性 ， 查 找 该 课程 的 预 修 课 程 就 是 
要 查找 所 有 课程 实例 的 预 修 课程 的 特定 值 。 如 图 2-13a 所 示 ，COURSE 实体 类 型 之 间 也 可 
以 类 似 地 用 一 元 联系 建 模 。 在 Visio 中 ， 这 种 特殊 情况 需要 创建 一 个 等 价 的 关联 实体 ( 见 图 
2-15a 中 的 Relationship & Entity 单元 ; Visio 中 不 采用 圆 角 矩 形 表 示 符 号 )。 通 过 创建 关联 实 
体 可 以 很 方便 地 给 联系 添加 特征 条 件 ， 如 符合 选修 条 件 学 生 的 最 低 年 级 等 。 另 外 我 们 注意 到 
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Visio 中 用 PK (主键 ) 符号 (在 本 例 中 ) 和 粗 体 表示 标识 符 ， 标 识 符 属 性 是 必要 属性 。 


ATTRIBUTE RELATIONSHIP & ENTITY 


COURSE 
Course ID 
Course Title 






CourselD 
Pre-Req Course ID 


pk Course ID 
灌 Course Title 





EMPLOYEE 


Employee ID 
Employee Name 


Skill Tite, Skill Type) } 


PK] Employee ID 
I Employee Name 








DEPARTMENT 





EMPLOYEE 
Employee ID 
Employee Name 


pk Employee ID 
站 Employee Name 





c) 与 其 他 实体 类 型 共享 数据 的 复合 属性 
图 2-15 用 联系 和 实体 连接 相关 属性 


在 图 2-15b 中 ,员工 可 能 有 多 个 技能 ( 见 Attribute 单元 )， 但 组 织 中 希望 技能 可 以 作为 
一 个 实体 类 型 (在 Relationship & Entity 单元 中 显示 为 等 价 的 关联 实体 ) 数据 保存 (用 一 个 
特定 的 技能 编码 标识 每 项 技能 、 一 个 描述 性 的 技能 标题 以 及 技能 类 型 ， 例 如 ， 技 术 或 管理 )。 
一 名 员工 可 以 有 很 多 技能 ， 但 这 些 技 能 不 能 作为 员工 的 属性 ， 而 是 作为 一 个 关联 实体 类 型 的 
实例 。 在 图 2-15a 和 2-15b 的 情形 中 ， 在 某 些 人 看 来 ， 不 是 把 联系 转化 为 其 他 的 实体 类 型 ， 
而 是 把 数据 表示 成 多 值 属性 ， 以 对 E-R 图 进行 简化 。 另 外 ， 图 2-15 三 个 例子 中 右 侧 的 表示 
图 更 接近 于 目前 流行 的 DBMS ， 这 是 标准 的 关系 数据 库 管 理 系统 中 的 表示 方法 。 虽 然 我 们 不 
关注 这 些 图 在 概念 数据 建 模 阶 段 的 实现 过 程 ， 但 是 这 里 面 保留 了 与 概念 模型 和 逻辑 模型 相似 
的 逻辑 概念 。 在 接 下 来 的 例子 中 会 看 到 不 管 是 简单 属性 、 复 合 属性 还 是 多 值 属 性 ， 有 些 情况 
下 属性 必须 是 一 个 独立 实体 。 

那么 ， 什 么 情况 下 属性 应 该 通过 联系 连接 到 实体 类 型 呢 ? 答案 是 : 当 属 性 是 数据 模型 中 
某 个 实体 类 型 的 标识 符 或 其 他 特征 并 且 多 个 实体 类 型 实例 需要 共享 该 属性 时 。 图 2-15c 体现 
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了 了 这 种 规则 ， 例 子 中 EMPLOYEE 有 Department (部 门 ) 的 复合 属性 。 部 门 是 个 商业 概念 ， 
多 个 员工 可 以 共享 同一 个 部 门 数 据 。 部 门 数据 可 以 (〈 非 元 余地 ) 在 DEPARTMENT 实体 类 型 
中 表示 ， 与 之 关联 的 实体 实例 可 以 通过 部 门 实体 获取 该 部 门 的 数据 属性 。 通 过 这 种 方法 ， 多 
个 员工 可 以 共享 同一 个 部 门 的 数据 ， 并 且 项 目 (被 分 配 到 该 部 门 ) 和 公司 中 的 某 一 单位 (由 
部 门 构成 ) 也 可 以 共享 这 同一 个 部 门 的 数据 。 


2.4.4 基数 约束 


有 一 个 更 重要 的 数据 建 模 符号 可 以 表示 一 些 常 用 而 重要 的 业务 规则 。 假 设 通过 一 个 联系 
连接 两 个 实体 类 型 A 和 B。 基 数 约 束 是 指 实体 B 的 实例 通过 一 个 联系 能 够 (或 必须 ) 与 实体 
A 关联 的 实例 个 数 。 例 如 ， 考 虑 一 个 音像 店 存储 的 DVD 电影 租赁 光盘 ， 库 存 中 每 部 电影 可 
能 对 应 多 张 DVD 光盘 ， 这 是 一 对 多 的 联系 ， 如 图 2-16a 所 示 。 但 是 ， 有 些 特定 的 情况 (如 
所 有 的 盗版 被 没收 的 情况 ) 下 这 家 店 可 能 没有 一 部 指定 电影 的 DVD 光盘 。 因 此 ， 需 要 一 个 
更 精确 的 符号 来 表示 一 个 联系 的 基数 范围 。 回 顾 图 2-2， 该 图 引入 了 基数 表示 符号 。 

1. 最 小 基数 

一 个 联系 的 最 小 基数 是 实体 B 的 实例 中 可 以 与 实体 A 的 每 个 实例 关联 的 实例 的 最 小 个 
数 。 在 上 述 的 DVD 示例 中 ， 一 个 电影 的 DVD 的 最 小 个 数 为 0。 当 参 与 的 最 小 个 数 为 0 时， 
实体 类 型 B 就 是 联系 的 可 选 参 与 实体 。 例如，DVD ( 弱 实 体 类 型 ) 在 Is Stocked As (库存 ) 联 
系 中 为 可 选 参与 实体 。 这 个 事实 在 图 2-16b 中 用 DVD 实体 附近 的 直线 上 标识 的 符号 0 描述 。 


ls Stocked As 
上 WE DVD 


a) 基本 联系 









最 小 值 为 0， 
最 大 值 为 多 
ls Stocked As pi 
Movie Name TN| Copy Number 


b) 联系 的 基数 约束 
图 2-16 ”基数 约束 介绍 


2. 最 大 基数 

一 个 联系 的 最 大 基数 是 实体 B 的 实例 中 可 以 与 实体 A 的 每 个 实例 关联 的 实例 的 最 大 个 
数 。 在 上 述 电 影 DVD 的 例子 中 ，DVD 实体 类 型 的 最 大 基数 为 “很 多 ”， 也 就 是 说 DVD 数量 
是 一 个 大 于 等 于 1 的 不 确定 数字 。 基 数值 在 图 2-16b 中 用 类 似 “ 乌 鸦 脚 ” 的 符号 在 DVD 实 
体 符号 左 侧 的 直线 上 方 对 DVD 数量 的 最 大 、 最 小 基数 进行 标识 。( 维 基 百 科 上 有 关于 “ 乌 钼 
脚 ” 这 个 标识 符 来 源 的 有 趣 解释 ; 下 面 这 篇 文章 也 介绍 了 大 量 的 表示 基数 的 符号 ， 网 址 如 下 : 
http://en.wikipedia.org/wiki/Entity-relationship_model,) 

当然 ， 联 系 是 双向 的 ， 所 以 在 MOVIE (电影 ) 实体 右 侧 也 有 基数 符号 。 注 意 MOVIE 实 
体 的 最 大 和 最 小 基数 数目 都 是 1 ( 见 图 2-16b)， 这 样 的 基数 称 作 强制 性 基数 ( mandatory one 
cardinality)。 换 句 话说， 一 部 电影 对 应 的 所 有 DVD 都 应 该 是 该 电影 的 拷贝 。 一 般 来 说 ， 联 
系 的 实体 为 可 选 参与 或 强制 性 参与 。 若 最 小 基数 为 0， 则 实体 是 可 选 参与 ; 在 最 小 基数 为 1， 
则 实体 是 强制 性 参与 。 
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在 图 2-16b 中 ， 每 个 实体 类 型 都 添加 了 一 些 属 性 。 注 意 ， 由 于 每 个 DVD 存在 的 前 提 是 
原版 电影 主体 存在 ， 所 以 DVD 是 一 个 弱 实 体 。MOVIE 的 标识 符 是 Movie Name (电影 名 )， 
而 DVD 没有 唯一 标识 符 ，Copy Number (拷贝 编号 ) 可 作为 DVD 实体 的 部 分 标识 符 ，Copy 
Number 和 Movie Name 共同 构成 了 DVD 实例 的 唯一 标识 符 。 


2.4.5 ”联系 和 基数 的 例子 


图 2-17 中 三 个 联系 的 例子 显示 了 所 有 可 能 的 最 大 和 最 小 基数 的 组 合 。 三 个 例子 都 显示 
了 每 个 基数 约束 的 业务 规则 以 及 相关 的 E-R 符号 ， 每 个 例子 还 列举 了 一 些 联 系 实例 以 说 明 
联系 的 性 质 。 图 2-17 中 的 三 个 例子 说 明了 以 下 业务 规则 : 

1 ) 患者 拥有 病史 记录 (图 2-17a)。 每 个 患者 可 能 有 一 个 或 多 个 病史 。( 从 患者 第 一 次 参 
与 治疗 开始 ， 每 一 次 治疗 都 会 产生 一 个 PATIENT HISTORY (病史 ) 的 实例 。) 每 个 PATIENT 
HISTORY 实例 只 与 一 个 PATIENT (患者 ) 相关 。 

2 ) 把 员工 分 配给 项 目 (图 2-17b)。 每 个 PROJECT (项 目 ) 至 少 被 分 配 一 名 EMPLOYEE 
(员工 ) 参与 ( 某 些 项 目 还 可 能 有 多 名 员工 参与 )。 每 个 EMPLOYEE 可 能 或 (可 选 地 ) 没有 分 
配 到 任何 现 有 的 项 目 (如 员工 Pete 就 没 被 分 配 到 任何 项 目 )， 当 然 , 一 名 EMPLOYEE 也 可 
以 被 分 配 到 一 个 或 更 多 项 目 中 参与 工作 。 


Mark Visit 1 
Has Recorded 2 PATIENT 
PATIENT J HISTORY _ Melt 
Sarah 
”~ 一 Visit2 
加 Elsie Visit 1 


a) 强制 基数 


Rose— spR 
Is Assigned To 
EMPLOYEE [> -- 9< PROJECT Pete 
\ \ TQM 








Tom 人 二 一 
a ey 
b) 一 个 可 选 、 一 个 强制 基数 
Is Married To DY 
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en 
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Fred 





c) 可 选 基数 
图 2-17 基数 约束 的 例子 
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3 ) 人 (PERSON) 和 人 结婚 ( ls Married To) (图 2-17c)。 两 个 基数 方向 各 有 一 个 基数 
可 选 值 为 0 或 1， 因为 一 个 人 可 以 在 给 定 的 时 间 内 选择 结婚 或 不 结婚 。 

最 大 基数 一 般 是 个 固定 值 ， 而 不 是 一 个 任意 “多 ”的 值 。 例 如 ， 假 如 某 公 司 政策 规定 一 
个 员工 可 以 在 同一 个 时 刻 参 与 5 个 项 目 ， 则 可 以 通过 图 2-17b 中 的 PROJECT 实体 旁边 的 类 
似 “ 马 鸦 脚 ” 的 符号 上 方 或 下 方 标注 数字 5 来 表示 这 种 业务 规则 。 

三 元 联系 例子 

图 2-14 中 表示 了 一 个 SUPPLY SCHEDULE 三 元 联系 关联 实体 。 根 据 供应 商品 的 业务 规 
则 为 供应 联系 的 E-R 图 添加 基数 约束 ， 如 图 2-18 所 示 。 注 意 ，PART 和 WAREHOUSE 必须 
与 某 个 SUPPLY SCHEDULE 实例 相关 联 ， 且 VENDOR 可 以 选择 是 否 参 与 供应 商品 。 每 一 个 
供应 计划 实例 必须 与 每 一 个 参与 实体 类 型 的 一 个 实例 关联 ， 所 以 参与 SUPPLY SCHEDULE 
联系 的 每 个 实体 的 基数 都 是 强制 性 的 ( 记 住 ，SUPPLY SCHEDULE 是 一 个 关联 实体 )。 

前 面 曾经 提 到 ， 一 个 三 元 联系 不 能 与 三 个 二 元 联系 等 价 。 遗 憾 的 是 ， 很 多 CASE 工具 不 
支持 三 元 联系 图 的 绘制 ; 如 果 必 须要 用 三 个 二 元 联系 表示 一 个 三 元 联系 (如 一 个 关联 实体 与 
三 个 二 元 联系 )， 那 么 绘制 时 ， 不 要 给 二 元 联系 命名 ， 并且 确保 参与 三 元 联系 的 三 个 强 实体 
转化 为 二 元 联系 后 ， 对 应 的 基数 是 强制 性 的 。 


业务 规则 
QD 每 个 销售 商 可 以 供应 0 或 者 
多 件 部 件 给 一 个 或 多 个 仓库 


@ 每 件 部 件 可 以 由 多 个 销售 商 
供应 给 一 个 或 多 个 仓库 ,但 
每 件 部 件 至 少 由 一 个 销售 商 

仆 供应 给 一 个 仓库 


SUPPLY SCHEDULE| ®@ 图 每 个 仓库 可 以 从 一 个 或 多 个 
A Shipping Mode WAREHOUSE 
Ce] | Ea 

Unit Cost 


销售 商 那 里 供应 一 件 或 多 件 
图 2-18 三 元 联系 中 的 基数 约束 





VENDOR 


部 件 ， 但 每 个 仓库 必须 供应 
至 少 一 件 部 件 


2.4.6 ”时 间 相 关 的 数据 建 模 


数据 库 内 容 会 随 着 时 间 发 生变 化 。 如 今 对 组 织 中 可 追溯 和 重 构 的 历史 的 各 种 需求 越 来 越 
高 ， 所 以 包含 时 间 序 列 的 数据 变 得 越 来 越 重 要 ， 如 HIPAA 和 陕 班 斯 -奥克斯 利 〈 Sarbanes- 
Oxley) 法 案 。 例 如 ， 数 据 库 中 存放 的 产品 信息 ， 每 件 产品 的 单价 会 随 材 料 和 人 力 成 本 以 及 市 
场 环 境 的 变化 而 变化 。 如 果 只 需要 当前 价格 ， 那 么 价格 可 以 
定义 为 单 值 属性 。 然 而 ， 对 于 会 计 、 记 账 、 财 务 报 告 等 ， 可 
能 需要 保存 历史 价格 以 及 价格 的 有 效 日 期 。 如 图 2-19 所 示 ， on olor 
将 这 种 需求 概念 化 为 产品 价格 和 价格 有 效 日 期 。 这 样 产 生 的 ESOS Datls Price)} 
Price History (历史 价格 )( 复 合 ) 多 值 属性 由 Price (价格 ) 和 
Effective Date (有 效 日 期 ) 构成 。 注 意 ， 历 史 价 格 这 样 的 复 | 
合 、 多 值 属性 实体 有 一 个 重要 的 特征 ， 即 要 求 它 的 子 属性 同 图 2-19 一 个 简单 的 时 间 戳 示例 
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Product ID 
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时 存在 。 因 此 ， 在 图 2-19 中 每 个 产品 的 Price 都 与 对 应 的 Effective Date 成 对 出 现 。 

在 图 2-19 中 每 个 Price 属性 值 都 带 有 一 个 记录 价格 有 效 日 期 的 时 间 惟 。 时 间 戳 (time 
stamp ) 是 一 个 简单 的 时 间 值 ， 如 日 期 和 时 间 。 时 间 戳 可 以 关联 一 个 随时 间 变 化 的 数据 值 
来 保存 那些 历史 数据 值 。 时 间 戳 可 以 记录 数据 值 的 录入 时 间 点 (事务 时 间 )、 数 据 的 有 效 日 
期 或 无 效 日 期 ， 又 或 者 是 执行 某 个 关键 操作 的 时 间 点 ， 如 更 新 、 修 改 或 审核 等 操作 ， 这 与 
图 2-15b 中 的 员工 技能 图 类 似 ; 还 有 一 种 方法 在 图 2-19 中 并 没有 显示 ， 可 以 利用 Microsoft 
Visio 的 绘图 技巧 ， 把 Price History 用 独立 的 实体 类 型 表示 。 

通常 使 用 一 个 简单 的 时 间 戳 (如 之 前 的 例子 ) 就 已 经 可 以 满足 时 变数 据 建 模 的 需要 。 然 
而 ， 引 入 时 间 的 数据 建 模 的 复杂 度 也 随 之 增 大 。 例 如 ， 图 2-17c 中 ，Is Married To 联系 是 为 
了 了 摘 述 某 个 特定 时 刻 的 内 容 ， 而 不 是 表示 历史 记录 。 那 么 ， 如 果 需 要 记录 一 个 人 的 完整 婚姻 
历史 ， 那 么 Is Married To 联系 有 可 能 是 一 个 可 选 的 多 对 多 的 联系 。 此 外 ， 如 果 有 多 段 婚姻 ， 
还 要 加 入 每 段 婚姻 联系 的 起 始 和 结束 日 期 ; 这 些 日 期 和 图 2-13c 中 材料 清单 结构 类 似 ， 可 以 
是 一 个 联系 的 属性 ， 也 可 以 是 一 个 关联 实体 。 

针对 时 变数 据 问题 曾经 与 数据 建 模 和 数据 库 管理 软件 领域 的 几 家 公司 的 经 理 进行 了 讨 
论 。 在 最 新 一 期 的 财务 报告 法 规 公 开 之 前 ， 可 操作 型 数据 库 的 数据 模型 不 具备 很 好 的 处 理 时 
变数 据 的 能 力 ， 甚 至 有 些 公司 经 稼 忽略 这 个 问题 而 导致 系统 问题 。 随 着 新 法 规 的 颁布 ， 提 
醒 各 公司 开发 数据 模型 时 需要 注意 由 时 变数 据 融 来 的 数据 模型 的 复杂 性 。 从 2007 年 5 月 
开始 ，T.Johnson 和 R.Weis 在 《 DM 评论 》( 现 在 叫 作 《 信 息 管 理 》) 上 发 表 了 一 系列 文章 ， 
详细 阐述 了 时 间 可 以 作为 数据 建 模 的 一 个 维度 ， 这 些 文章 可 以 通过 访问 www.information- 
management.com 网 址 上 的 信息 中 心 的 杂志 部 分 进行 阅读 。 


2.4.7 ”实体 类 型 间 的 多 元 联系 建 模 


在 一 个 固定 的 组 织 中 ， 相 同 的 实体 类 型 之 间 可 能 存在 一 个 以 上 的 联系 。 图 2-20 中 有 两 
个 例子 ， 图 2-20a 中 显示 EMPLOYEE 和 DEPARTMENT 实体 类 型 之 间 的 两 种 联系 。 图 中 ， 
在 两 个 联系 的 方向 上 用 不 同 的 符号 对 联系 进行 标记 ; 通过 标记 注释 ， 每 个 方向 上 联系 的 基数 
会 更 加 明确 (对 清晰 表示 EMPLOYEE 实体 上 的 一 元 联系 有 非常 重要 的 意义 )。 对 于 员工 和 其 
所 在 部 门 的 联系 ， 在 Has Workers (拥有 员工 ) 和 Is Managed By (被 管理 ) 两 个 联系 方向 上 
都 有 强制 性 ， 都 是 一 对 多 的 联系 。 也 就 是 说 ， 一 名 员工 必须 被 分 配 在 一 个 确定 的 部 门 ， 一 个 
部 门 必须 至 少 有 一 名 员工 (可 能 是 部 门 经 理 )。( 注 意 : 这 些 都 是 假设 业务 规则 的 实例 。 当 进 
行 E-R 图 设计 时 ， 需 要 了 解 特定 的 、 具 体 的 业务 规则 ， 才 能 更 好 地 进行 设计 。 人 例如， 如果 
EMPLOYEE (员工 ) 实体 包括 退 体 人员， 那么 这 种 类 型 的 员工 就 不 能 再 被 分 配给 一 个 部 门 ; 
再 例如 ， 对 于 图 2-20a 所 示 的 E-R 模型 ， 假 设 组 织 中 只 需要 记录 每 个 员工 目前 工作 的 部 门 ， 
而 不 是 工作 部 门 的 历史 分 配 记录 。 数 据 模型 结构 反映 了 组 织 需要 记录 的 相关 信息 。) 

员工 和 部 门 间 的 第 二 个 联系 关联 了 部 门 和 部 门 管理 的 员工 。 这 种 从 部 门 到 员工 〈 称 被 管 
理 (Is Managed By) 的 方向 ) 的 联系 是 强制 性 的 ， 表 明 每 个 部 门 都 必须 恰好 有 一 名 经 理 。 从 
员工 到 部 门 的 联系 (管理 (Manages) ) 是 可 选 的 ， 因 为 不 是 所 有 员工 都 是 一 名 部 门 经 理 。 

图 2-20a 还 显示 了 一 元 联系 ， 即 员工 之 间 存 在 着 监督 和 被 监督 的 联系 。 这 种 联系 记录 了 
一 种 业务 规则 ， 即 每 个 员工 可 能 是 一 个 监督 其 他 员工 的 员工 或 者 是 一 个 被 监督 ( Supervised 
By) 的 员工 。 相 反 ， 每 个 员工 可 以 监督 许多 员工 ， 也 可 以 做 一 个 没有 监督 权力 的 员工 。 
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图 2-20b 所 示 的 例子 显示 了 PROFESSOR (教授 ) 和 COURSE (课程 ) 实体 类 型 之 间 的 
联系 。Is Qualified (有 任职 资格 ) 联系 关联 了 教授 和 他 所 教授 的 课程 。 一 门 给 定 的 课程 需要 
两 个 以 上 有 任职 资格 的 讲师 (如 何 使 用 固定 的 最 小 或 最 大 基数 值 的 例子 ) 承担 授课 任务 。 例 
如 ， 一 门 课程 不 是 某 位 特定 讲师 的 “私有 物 ”， 相 反 每 一 名 讲师 必须 至 少 教 一 门 课程 (当然 ， 
这 是 一 种 合理 的 期 望 )。 

图 中 第 二 个 联系 是 ， 在 一 个 学 期 内 ， 教 授 和 课程 之 间 由 课程 安排 进行 关联 。 因 为 
Semester (学 期 ) 是 联系 的 一 个 特征 ， 所 以 ， 图 中 的 PROFESSOR 和 COURSE 之 间 存 在 一 个 
关联 实体 一 一 SCHEDULE (课程 安排 )。 

关于 图 2-20b 还 有 一 点 疑问 : 能 否 找 出 课程 安排 关联 实体 的 标识 符 ? 注意 ，Semester 是 
一 个 局 部 标识 符 ， 因 此 ， 完 整 的 课程 安排 标识 符 包括 PROFESSOR、COURSE 以 及 Semester 
的 标识 符 。 由 于 完整 的 关联 实体 标识 符 可 能 变 得 长 而 复杂 ， 因 而 建议 为 每 个 关联 实体 创建 
替代 标识 符 ; 所 以 ， 为 SCHEDULE 创建 Schedule ID 标识 符 ，Semester 为 它 的 一 个 属性 。 
在 这 种 情况 下 有 一 个 隐藏 的 业务 规则 ， 即 每 个 SCHEDULE 实例 对 应 唯一 的 PROFESSOR、 
COURSE 和 Semester 的 联合 标识 符 (因为 三 者 的 组 合 是 SCHEDULE 标识 符 )。 当 然 ， 在 
SCHEDULE 上 也 可 以 添加 其 他 业务 规则 。 


2.4.8 命名 和 定义 联系 


除了 满足 命名 数据 对 象 的 一 般 准 则 外 ， 还 有 命名 联系 的 特别 准则 ， 这 些 准 则 是 : 

e 联系 的 名 字 是 个 动词 短语 (如 Assigned To (分 配 )、Supplies (供应 ) 或 Teaches ( 教 
授 ) 等 )。 联 系 表 示 采 取 什 么 样 的 行为 来 执行 动作 ， 一 般 使 用 现在 时 ， 所 以 及 物 动 词 
(做 动作 ) 比较 合适 。 联 系 名 表示 采取 什么 样 的 行为 ， 而 不 是 行为 的 结果 (例如 ,使 用 
Assigned To 而 不 是 Assignment)。 名 称 只 表示 参与 实体 类 型 间 的 交互 特征 ， 而 不 涉及 


b) 教授 和 课程 (固定 下 限 约束 ) 
图 2-20 ”多 元 联系 示例 
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参与 过 程 (例如 ， 一 个 员工 被 分 配 (assigned to) 到 一 个 项 目 ， 而 不 是 一 个 员工 去 分 
配 (assigning) 一 个 项 目 )。 

定义 联系 名 时 ， 要 避免 意义 模糊 的 名 字 ， 如 已 经 、 相 关 等 模糊 词语 。 尽 量 使 用 描述 性 
的 且 概 括 能 力 强 的 动词 短语 ， 可 以 从 联系 的 定义 中 发 现 、 总 结 行为 动词 。 


还 有 一 些 定义 联系 时 遵循 的 特殊 准则 : 


联系 定义 主要 说 明 采 取 什 么 样 的 行为 执行 动作 以 及 执行 行为 的 重要 性 。 确 定 由 谁 或 者 
采取 什么 样 的 行为 执行 动作 ， 比 执行 动作 的 过 程 更 重要 。 联 系 的 定义 必然 涉及 业务 对 
象 ， 一 般 在 E-R 图 中 已 经 包括 了 联系 以 及 实体 类 型 的 定义 说 明 ， 所 以 ， 不 需要 对 业 
务 对 象 重 复 描述 。 

通过 举例 也 可 以 有 效 说 明 行 为 动作 的 意义 。 例 如 ， 注 册 是 建立 在 学 生 和 课程 之 间 的 联 
系 ， 注 册 联 系 可 以 包括 线 下 注册 和 线 上 注册 ， 也 包括 添加 和 删除 操作 过 程 中 进行 的 
注册 。 

定义 应 该 可 以 对 可 选 参与 进行 解释 。 应 该 解释 零 相 关 实 例 (没有 相关 实例 ) 产生 的 情 
况 : 是 一 个 实体 实例 首次 创建 时 产生 ， 还 是 随时 都 可 能 产生 。 例 如 ,“ 已 经 报名 参加 
课程 的 学 生 会 产生 一 个 注册 链接 。 在 注册 开放 之 前 ,任何 课程 都 不 会 有 学 生 注 册 ， 学 
生 也 无 法 注册 任何 课程 那么 他 将 不 能 选修 任何 课程 (或 者 可 以 选修 课程 ,但 是 要 放 
弃 部 分 或 所有 的 课程 )。” 

联系 的 定义 应 该 可 以 解释 最 大 基数 的 产生 原因 。 例 如 ,“ 在 一 名 员工 和 他 被 分 配 到 的 
项 目 之 间 建 立 Assigned To (分 配 ) 的 联系 。 根 据 公 司 规定 ， 员 工 不 能 同时 参与 四 个 项 
目 。” 例 子 中 体现 了 很 多 公司 业务 规则 典型 的 上 限 标准 ， 最 大 基数 不 一 定 是 永久 性 的 。 
类 似 的 例子 中 ， 不 同 的 公司 可 能 会 增加 或 减少 上 限 标准 。 因 此 , 最 大 基数 的 定义 必须 
是 可 修改 的 。 

联系 的 定义 应 该 可 以 解释 互 斥 联 系 。 互 奈 联 系 是 指 一 个 实体 实例 只 能 与 一 个 联系 相关 
联 。 针 对 这 种 情况 ， 在 第 3 章 中 会 举例 说 明 。 现 在 来 分 析 一 个 例子 :“Plays On (运动 ) 
连接 了 校 际 运 动 队 和 学 生 队 员 ， 并 明确 标注 出 学 生 参 加 了 哪 支 校 际 运动 队 进 行 训练 。 
参加 校 际 运动 队 的 学 生 不 允许 从 事 校 内 兼职 活动 ( 即 学 生 不 能 同时 参加 校 际 运动 队 和 
校内 兼职 )。” 互 太 约 束 的 另 一 个 例子 是 ， 存 在 夫妻 关系 的 员工 之 间 不 能 互相 监督 。 
联系 的 定义 应 该 可 以 解释 联系 中 的 参与 限制 。 互 斥 是 一 种 限制 ， 但 还 有 其 他 限制 。 例 
如 ,“ 员 工 之 间 可 以 互相 监督 ， 但 员工 不 能 监督 自己 ,并 且 如 果 员 工 的 等 级 水 平 低 于 4 
级 ， 就 不 具备 监督 的 权利 。 

联系 的 定义 应 该 可 以 解释 联系 中 隐 含 的 历史 联系 。 人 例如， 医院 病床 与 病人 的 Assigned 
To (分 配 ) 连接 。 只 有 当前 被 分 配 的 床位 才 会 存储 在 数据 库 中 。 硅 一 名 病人 没有 被 医 
院 接 收 ， 那么 他 就 没有 床位 ， 而 一 个 床位 在 任意 时 间 点 是 可 以 处 于 空闲 状态 的 。 为 一 
个 隐 含 的 历史 联系 的 例子 是 Places (签约 ) 连接 了 客户 与 订单 。 但 如 果 数 据 库 中 只 保 
留 了 近 两 年 的 订单 数据 ， 那 么 就 不 是 所 有 订单 都 存在 这 种 联系 。 

联系 的 定义 应 该 可 以 解释 参与 联系 的 实体 实例 之 间 的 对 应 关系 是 否 可 以 改变 。 例 如 ， 
签约 连接 了 客户 与 订单 ， 而 每 个 订单 对 应 的 客户 是 固定 的 ， 不 能 转移 给 其 他 客户 。 田 
一 个 例子 是 ，“ Categorized (分 类 ) 连接 了 产品 和 生产 线 。 由 于 组 织 结 构 和 产品 设计 
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性 质 的 变化 ,产品 可 能 被 分 到 其 他 的 生产 线 生产 。 分 类 只 能 作为 产品 与 当前 生产 线 的 


2.5 ”EE-R 建 模 实例 : Pine Valley 家 具 公 司 


设计 E-R 图 可 以 选择 以 下 两 种 方法 之 一 (或 两 种 ): 一 种 是 自 顶 向 下 的 方法 , 从 商业 的 基 
本 描述 入 手 ， 包括 政 策 法 规 、 流 程 和 开发 环境 。 自 顶 向 下 的 方法 适合 开发 仪 有 主要 实体 、 联 
系 以 及 由 有 限 的 属性 集合 构成 的 高 级 E-R 图 (例如 仅 有 实体 标识 符 )。 男 一 种 是 自 底 向 上 的 
方法 ， 设 计 者 与 用 户 进行 详细 的 讨论 ， 从 文档 、 屏 幕 以 及 相关 数据 资源 的 研究 人 手 。 自 底 向 
上 的 方法 是 设计 一 个 详细 的 “完全 属性 ”E-R 图 的 重要 方法 。 
本 节 主 要 为 Pine Valley 家 具 公 司 开发 一 个 高 级 的 ERD， 主 要 采用 自 项 向 下 的 设计 方法 
(图 2-21 采用 微软 的 Visio 工具 进行 绘制 )。 为 了 表示 上 的 简单 ， 图 中 不 显示 复合 或 多 值 属性 
(例如 ， 技 能 表示 为 一 个 单独 的 实体 类 型 ， 通 过 关联 实体 与 EMPLOYEE 实体 关联 。 人 允许 一 个 
员工 掌握 多 种 技能 ， 多 个 员工 也 可 以 同时 掌握 一 个 技能 )。 
通过 图 2-21 的 实例 图 可 以 回顾 本 章 之 前 学 习 的 常见 的 E-R 建 模 符号 ， 后 面 的 内 容 中 将 
解释 图 中 的 业务 规则 。 然 而 ， 在 阅读 解释 之 前 ， 通 过 前 面 内 容 的 学 习 ， 先 试 着 在 图 2-21 中 
寻找 典型 的 E-R 模型 结构 ， 如 一 对 多 、 二 元 、 一 元 联系 等 。 再 接着 思考 为 什么 用 这 种 方法 
对 业务 数据 进行 建 模 。 看 图 的 时 候 可 以 思考 以 下 一 系列 问题 : 
e 哪里 表示 一 元 联系 ,一 元 联系 代表 什么 意义 ,什么 原因 导致 基数 的 不 同 ? 
e 为 什么 包括 一 个 一 对 多 的 联系 ,其 他 组 织 中 的 结构 有 何不 同 ? 
e 产品 在 被 分 配 到 生产 线 生 产 之 前 ， 是 否 允 许 在 数据 库 中 表示 ? 
e 如 果 每 个 不 同 的 销售 区 域 分 别 有 不 同 的 销售 联络 员 ， 那 么 联络 员 的 名 字 在 数据 模型 中 
应 该 如 何 放置 ? 
e Does Business In (经 营 范 围 ) 关联 实体 的 意义 是 什么 ,为 什么 每 个 Does Business In 
实例 必须 与 SALES TERRITORY (销售 区 域 ) 和 CUSTOMER (客户 ) 关联 ? 
Pine Valley 家 具 公 司 的 哪些 经 营 方 式 会 导致 Supplies (供应 ) 关联 实体 发 生变 化 或 供 
应 关联 实体 被 淘汰 ? 
以 上 问题 在 本 章 最 后 的 问题 与 练习 3 中 解答 ， 建 议 读 者 先 思考 这 些 问 题 ， 以 加 强 对 之 前 
1 78] 学 习 的 E-R 图 的 理解 和 回顾 。 
从 Pine Valley 家 具 公 司 的 业务 流程 中 我 们 已 识别 出 以 下 实体 类 型 ， 并 且 已 为 每 个 实体 选 
择 了 重要 属性 和 标识 符 : 
e 该 公司 销售 不 同 种 类 的 家 具 产 品 。 这 些 产 品 分 为 几 个 产品 线 。 产 品 的 标识 符 是 
Product ID (产品 编号 )， 而 产品 线 的 标识 符 是 Product Line ID (产品 线 编号 ) 。 产 品 
的 其 他 属性 包括 Product Description (产品 说 明 )、Product Finish (产品 完成 日 期 ) 和 
Product Standard Price (产品 标价 )。 产 品 线 的 其 他 属性 有 Product Line Name (产品 线 
名 称 )。 产 品 线 包括 一 个 或 多 个 产品 ， 但 至 少 包 括 一 个 产品 ， 而 每 个 产品 只 能 属于 唯 
一 的 产品 线 。 
e 客户 提交 产品 订单 。 订 单 的 标识 符 是 Order ID (订单 编号 )， 其 他 属性 包括 Order Date 
(订单 日 期 )。 客 户 可 以 提交 0 个 或 多 个 订单 ,但 每 个 订单 只 能 被 唯一 的 客户 提交 。 客 
户 的 标识 符 是 Customer ID (客户 编号 )， 其 他 属性 包括 Customer Name (客户 名 )、 
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Customer Address (客户 地 址 ) 和 Customer Postal Code (客户 邮政 编码 )。 
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图 2-21 用 微软 的 Visio 符号 表示 Pine Valley 家 具 公 司 的 数据 模型 


e 客户 订单 必须 至 少 有 一 个 产品 ， 并 且 每 个 订单 的 每 行 只 能 对 应 一 款 产 品 。Pine Valley 
家 具 公 司 销售 的 任何 产品 在 项 目 订 单 中 出 现 0 或 多 行 。 每 个 订单 中 与 每 个 行 项 目 关 联 
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的 属性 是 Ordered Quantity (订购 数量 )。 
e 针对 客户 建立 销售 区 域 。 每 个 客户 可 以 在 0 个 或 多 个 销售 区 域 经 营销 售 。 一 个 销售 区 
域 有 一 个 或 多 个 客户 。 销 售 区 域 的 标识 符 为 Territory ID (区 域 编号 )， 其 他 属性 包括 
Territory Name (区 域名 称 )。 
Pine Valley 家 具 公 司 有 多 个 销售 员 。 销 售 员 的 标识 符 是 Salesperson (销售 员 编 号 )， 
其 他 属性 包括 Salesperson Name (销售 员 名 称 )、Salesperson Telephone (销售 员 电 话 ) 
和 Salesperson Fax (销售 员 传 真 )。 一 个 销售 员 只 能 服务 一 个 销售 区 域 ， 但 每 个 销售 
区 域 可 以 由 一 个 或 多 个 销售 员 服 务 。 
每 个 产品 都 是 由 一 种 或 多 种 原材料 按照 一 定数 量 组 装 而 成 。 原 材料 实体 的 标识 符 为 
Material ID (材料 编号 )， 其 他 属性 包括 Unit Of Measure (计量 单位 )、Material Name 
(材料 名 称 )、Material Standard Cost (材料 标准 成 本 )。 用 特定 数量 的 原料 组 装 成 一 个 
或 多 个 产品 。 
原材料 销售 商 。 销 售 商 的 标识 符 为 Vendor ID (销售 商 编 号 )， 其 他 属性 包括 Vendor 
Name (销售 商 名 ) 和 Vendor Address (销售 商 地 址 )。 每 种 原材料 可 以 由 一 个 或 多 
个 销售 商 提 供 。 销 售 商 给 Pine Valley 家 具 公 司 提供 0 种 或 多 种 原材料 。Supply Unit 
Price (供应 单价 ) 是 指 一 个 销售 商 提 供 某 种 特定 原料 的 单位 价格 。 
e Pine Valley 家 具 公 司 已 经 建立 了 一 些 工 作 中 心 。 工 作 中 心 的 标识 符 是 Work Center ID 
(工作 中 心 编号 )， 男 一 个 属性 是 Work Center Location (工作 中 心 位 置 )。 每 一 种 产品 
在 一 个 或 多 个 工作 中 心 产 生 。 一 个 工作 中 心 可 生产 0 款 或 多 款 产 品 。 
公司 员工 。 公 司 有 超过 100 人 的 员工 数量 。 员 工 的 标识 符 是 Employee ID ( 工 号 ), 其 
他 属性 包括 Employee Name (员工 姓名 )、Employee Address (员工 地 址 ). Skill (技能 )。 
员工 可 以 有 一 项 以 上 的 技能 。 每 名 员工 可 在 一 个 或 多 个 工作 中 心 工 作 ， 工作 中 心 有 一 
名 或 多 名 员工 。 一 种 技能 可 以 由 0 或 多 名 员工 具备 。 
每 个 员工 都 有 一 个 主管 ， 但是， 经理 没有 主管 。 是 主管 的 员工 可 以 监督 多 名 员工 , 但 
并 不 是 所 有 的 员工 都 是 主管 。 


2.6 ”Pine Valley 家 具 公 司 的 数据 库 处 理 


图 2-21 表示 了 Pine Valley 家 具 公 司 数 据 库 的 概念 设计 。 通 过 与 使 用 实现 后 的 数据 库 的 
人 员 频 繁 交 流 来 检验 数据 库 的 设计 质量 非常 重要 。 重 要 的 上 且 经 常 实施 的 数据 库 设 计 质 量 检验 
类 型 是 确认 E-R 模型 是 否 能 容易 地 满足 用 户 对 数据 或 (和 ) 信息 的 需求 。Pine Valley 家 具 公 
司 的 员工 有 大 量 数据 检索 和 报告 需求 。 本 节 将 针对 如 图 2-21 所 示 的 设计 ， 展 示 几 个 这 样 的 
用 户 信息 需求 如 何 被 数据 库 处 理 实现 。 

本 书 采用 SQL 数据 库 处 理 语言 ( 将 在 第 6 章 和 第 7 章 中 阐述 ) 描述 查询 状态 ， 为 了 充分 
理解 这 些 查询 ,第 4 章 中 还 有 一 些 概念 介绍 。 本 章 介绍 的 一 些 简单 查询 有 助 于 理解 数据 库 解 
决 重 要 的 组 织 问题 的 能 力 ， 第 6 章 以 及 后 续 章 节 将 对 SQL 查询 做 更 详细 的 阐述 。 


2.6.1 显示 产品 信息 

各 种 用 户 ( 例 如， 销售 人 员 、 库 存 经 理 和 产品 经 理 ) 都 希望 看 到 Pine Valley 家 具 公 司 生 
产 的 相关 产品 的 数据 信息 。 对 于 销售 人 员 来 说 ,一 个 特殊 的 需求 是 : 需要 知道 客户 对 产品 列 
表 中 哪 种 类 型 的 产品 感 兴 趣 。 这 种 查询 需求 的 一 个 例子 如 下 : 
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列 出 公司 库存 的 各 种 电脑 桌 的 详细 信息 。 
以 上 需求 是 对 PRODUCT 实体 信息 进行 查询 的 操作 (如 图 2-21 )。 查 询 扫 描 所 有 产品 实 
体 并 显示 包含 有 Computer Desk (电脑 桌 ) 产品 的 属性 。 


SELECT * 
FROM Product 
WHERE ProductDescription LIKE “Computer Desk%"; 


查询 的 典型 输出 结果 是 : 

PRODUCTID PRODUCTDESCRIPTION PRODUCTFINISH PRODUCTSTANDARDPRICE 
3 Computer Desk 48" Oak 375.00 
8 Computer Desk 64" Pine 450.00 


SELECT * FROM Product 表示 显示 所 有 PRODUCT 实体 的 属性 。WHERE 子 句 表示 查 
询 条 件 是 : 以 “Computer Desk” 字 符 串 开头 的 产品 。 


2.6.2 显示 产品 线 信 息 


男 一 个 第 见 的 信息 是 显示 Pine Valley 家 具 产 品 线 的 数据 信息 。 产 品 经 理 需 要 了 解 、 掌 握 
这 种 特定 类 型 的 信息 。 以 下 是 一 名 区 域 销售 经 理 的 特殊 查询 需求 : 
列 出 产品 线 4 的 详细 信息 。 
在 PRODUCT 实体 中 有 该 查询 数据 。 如 第 4 章 中 所 述 ， 图 2-21 中 的 数据 模型 转换 成 数 
据 库 时 ，Product Line (产品 线 ID) 属性 被 添加 到 PRODUCT 实体 中 。 查 询 扫 描 PRODUCT 
实体 ， 显 示 符 合 产 品 线条 件 的 产品 的 所 有 属性 。 
查询 对 应 的 SQL 代码 如 下 : 


SELECT * 
FROM Product 
WHERE ProductLinelD = 4; 


查询 的 典型 输出 结果 是 : 
PRODUCTID PRODUCTDESCRIPTION PRODUCTFINISH PRODUCTSTANDARDPRICE PRODUCTONHAND PRODUCTLINEID 
18 Grandfather Clock Oak 890.0000 0 4 
19 Grandfather Clock Oak 1100.0000 0 4 


该 SQL 查询 与 显示 产品 信息 的 SQL 查询 语句 相似 ， 不 做 长 述 。 
2.6.3 显示 客户 订单 状态 


前 两 个 查询 例子 比较 简单 ， 都 只 涉及 一 张 表 。 很 多 情况 下 ,查询 请 求 信息 来 自 多 张 表 。 
虽然 前 面 的 查询 比较 简单 ， 但 查询 过 程 依然 要 搜索 整个 数据 库 ， 以 找到 满足 查询 需求 的 实体 
和 属性 。 

为 了 简化 查询 输入 等 要 求 ， 满 足 用 户 的 特殊 需求 ， 可 以 在 数据 库 管理 系统 中 创建 视图 。 
为 了 满足 客户 订单 状态 的 查询 ，Pine Valley 公司 创建 了 如 图 2-22 中 所 示 的 PVFC ( Pine Valley 
公司 ) 的 E-R 图 ， 图 中 显示 名 为 “客户 订单 ”的 用 户 视 图 。 视 图 中 ， 只 显示 CUSTOMER 和 
ORDER 实体 以 及 两 个 实体 的 唯一 属性 。 对 用 户 来 说 , ORDERS FOR CUSTOMERS (客户 订单 ) 
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实体 和 其 属性 构成 一 张 (虚拟 ) 表 。Customer ID 属性 被 添加 到 ORDER 实体 (如 图 2-22 所 示 ) 
中 ,在 第 4 章 中 将 再 作 说 明 。 


CUSTOMER ORDER 
CustomerID =。 


Customer Name 





图 2-22 用户 视图 : 客户 订单 


一 个 典型 的 订单 状态 查询 如 下 : 
从 客户 Value Furniture 那里 收 到 多 少 订 单 ? 
假设 把 我 们 需要 的 数据 汇集 到 一 个 用 户 视 图 或 被 称 为 Orders For Customers 的 虚拟 实体 ， 
可 以 编写 如 下 查询 语句 : 


SELECT COUNT(Order ID) 
FROM OrdersForCustomers 
WHERE CustomerName = “Value Furniture”: 


耕 没 有 用 户 视图 ， 则 可 以 通过 编写 SQL 代码 的 方式 进行 查询 。 本 书 选 择 散 套 查 询 组 合 ， 
称 为 子 查 询 〈subquery)。( 在 第 7 章 中 将 曾 述 子 查 询 ， 并 用 图 解 技 术 帮 助 构成 查询 。) 查询 
分 两 个 步骤 执行 。 第 一 步 ， 子 查询 (或 内 查询 ) 扫描 CUSTOMER 实体 以 确定 名 为 “Value 
Furniture ”的 客户 的 Customer ID。( 本 例 中 的 客户 ID 为 5。) 第 二 步 ， 查询 (或 外 查询 ) 扫 
描 ORDER 实体 并 根据 第 一 步 中 查询 到 的 客户 ID 统计 对 应 客户 的 订单 实例 的 数量 。 
上 例 中 ， 知 没有 建立 “客户 订单 ”视图 ， 则 采用 如 下 SQL 语句 实现 查询 : 


SELECT COUNT (OrderID) 
FROM Order 
WHERE CustomerlD = 
(SELECT CustomerlD 
FROM Customer 
WHERE CustomerName = “Value Furniture”); 


示例 中 的 SQL 语句 采用 了 子 查询 的 方法 ， 与 视图 相 比 ， 并 没有 使 查询 语句 变 得 非常 复 淋 。 
采用 以 上 两 种 查询 方法 都 可 以 得 到 如 下 结果 : 
COUNT(ORDERID) 

4 


总 结 


本 章 描述 了 组 织 中 数据 建 模 的 基础 。 业 务 规则 来 自 于 政策 、 程 序 、 事 件 、 函 数 和 其 他 业 
务 对 象 ， 规 定 管理 组 织 的 约束 以 及 在 这 些 约束 中 数据 如 何 进 行 处 理 和 存储 。 使 用 业务 规则 描 
述 一 个 信息 系统 的 需求 是 非常 重要 的 方式 ， 对 数据 库 也 会 收 到 较 好 的 效果 。 业 务 规则 成 为 企 
业 的 核心 理念 ， 它 能 够 表达 为 最 终 用 户 所 熟悉 的 条 款 ， 具 有 很 强 的 可 维护 性 ， 能 够 通过 目 动 
化 的 手段 加 以 执行 ， 但 大 多 数 情况 下 还 是 通过 数据 库 的 方式 加 以 执行 。 

基本 业务 规则 是 数据 的 命名 和 定义 。 本 章 曾 述 了 在 业务 中 为 数据 对 象 命名 和 定义 的 准 
则 。 在 进行 概念 数据 建 模 时 ， 必 须 为 实体 类 型 、 属 性 和 联系 提供 名 字 和 定义 。 其 他 业务 规则 
可 以 描述 对 这 些 数据 对 象 的 约束 ， 这 些 约束 可 以 在 数据 模型 和 相关 的 文档 中 获得 。 

目前 ， 常 用 的 数据 建 模 符 号 是 实体 - 联系 数据 模型 。E-R 模型 是 一 种 对 组 织 中 的 数据 进 
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行 详细 描述 的 逻辑 表达 方法 。 通 常 E-R 模型 通过 E-R 图 的 形式 表达 ， 即 采用 图 形 的 方式 描 
述 E-R 模型 。 目 前 ， 还 没有 E-R 建 模 符 号 的 标准 ， 很 多 CASE 工具 中 使 用 的 都 是 Visio 中 的 
标记 法 。 

E-R 模型 的 基本 结构 是 实体 类 型 、 联 系 以 及 相关 属性 。 实 体 是 一 个 人 、 一 个 地 方 、 一 个 
对 象 、 一 个 事件 或 是 在 用 户 环境 中 组 织 希 望 保 存 数据 的 一 个 概念 。 一 个 实体 类 型 是 一 系列 实 
体 的 集合 ， 它 们 具有 相同 的 属性 。 一 个 实体 实例 是 一 个 实体 类 型 的 实例 化 。 强 实体 类 型 有 自 
己 的 标识 符 ， 不 依赖 于 其 他 实体 的 存在 而 存在 。 弱 实体 类 型 实体 的 存在 依赖 于 强 实 体 。 弱 实 
体 没有 自己 的 标识 符 ， 通 常 只 有 部 分 标识 符 。 弱 实体 通过 其 依赖 的 强 实 体 类 型 进行 识别 。 

属性 是 与 组 织 相 关联 的 实体 以 及 实体 间 联 系 的 性 质 和 特征 。 属 性 的 类 型 有 很 多 ， 一 个 实 
体 实例 的 必要 属性 必须 有 值 ， 可 选 属 性 的 值 可 以 为 空 。 简 单 属性 不 可 分 割 ， 复 合 属性 可 以 分 
解 成 多 个 组 成 部 分 ， 例 如 ， 人 名 可 以 分 解 成 姓 和 名 。 

多 值 属 性 是 指 一 个 实体 实例 可 以 有 多 个 值 ， 例 如 ， 一 个 人 的 大 学 学 位 属性 可 以 有 多 个 
值 。 推 导 属 性 是 指 它 的 值 可 以 通过 其 他 属性 值 计 算得 出 ， 例 如 ， 平 均 工 资 可 以 通过 所 有 员工 
工资 计算 得 出 。 

标识 符 是 唯一 识别 一 个 实体 实例 的 属性 。 标 识 符 应 慎重 选择 ， 以 确保 稳定 性 和 易 用 性 。 
标识 符 可 能 是 一 个 简单 属性 ， 或 者 是 一 些 复合 属性 。 

联系 类 型 是 反映 实体 与 实体 之 间 有 意义 的 联系 ， 联 系 实例 表达 实体 实例 之 间 的 关联 。 联 
系 的 度 是 参与 联系 的 实体 类 型 的 数目 。 最 常见 的 联系 类 型 是 一 元 (一 度 )、 二 元 (二 度 ) 和 三 
1 三 度 谢 

在 绘制 E-R 图 时 ， 会 遇 到 多 对 多 (和 一 对 一 ) 的 联系 ， 这 些 联系 有 一 个 或 多 个 与 联系 相 
关 的 属性 ， 而 不 仅仅 是 与 参与 的 实体 类 型 相关 的 属性 。 在 这 种 情况 下 ， 考 虑 将 联系 转换 成 一 
个 关联 实体 。 这 种 类 型 的 实体 是 一 个 或 多 个 实体 类 型 的 实例 间 的 关联 ， 并 且 包 含 联系 的 属 
性 。 关 联 实体 类 型 自身 可 以 有 简单 的 标识 符 ， 或 是 在 逻辑 设计 阶段 被 分 配 一 个 复合 标识 符 。 

基数 约束 是 一 种 限定 与 实体 A 的 实例 相关 联 的 实体 B 的 实例 个 数 约 束 。 基 数 约束 通常 
可 以 限定 一 个 实体 实例 的 最 大 和 最 小 个 数 。 约 束 可 以 是 单 强制 、 多 强制 、 单 选 、 多 选 或 者 一 
个 具体 的 数字 。 最 小 基数 约束 也 被 称 为 参与 约束 。 最 小 基数 为 零 代表 的 是 可 选 参 与 ， 而 最 小 
基数 为 1 代表 的 是 强制 参与 。 

随 着 时 间 的 推移 ， 很 多 数据 库 需 要 存储 历史 数据 值 ， 因 此 为 时 变数 据 进 行 建 模 是 数据 建 
模 的 一 个 重要 组 成 部 分 。 随 着 时 间 的 推移 ， 数 据 不 断 地 重复 ， 数 据 可 以 建 模 为 多 值 属性 或 作 
为 独立 的 实体 实例 ， 在 每 种 情况 下 都 可 以 通过 时 间 惟 为 数据 标识 相关 的 日 期 和 时 间 。 有 时 在 
数据 模型 中 需要 建立 独立 的 联系 ， 以 代表 不 同时 间 点 之 间 的 关联 。 最 近 的 财务 报告 风波 就 证 
明了 包含 时 间 和 历史 数据 的 规则 在 数据 库 中 的 重要 性 。 


关键 术语 

Associative entity (关联 实体 ) Composite attribute (复合 属性 ) 
Attribute (属性 ) Composite identifier (复合 标识 符 ) 
Binary relationship (二 元 联系 ) Degree ( 度 ) 

Business rule (业务 规则 ) Derived attribute (推导 属性 ) 


Cardinality constraint (基数 约束 ) Entity (实体 ) 
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Entity instance (实体 实例 ) 

Entity-relationship diagram (E-R diagram) 
(实体 - 联系 图 (E-R 图 )) 

,Entity-relationship model (E-R model) 
(实体 -联系 模型 (E-R) 模型 ) 

Entity type (实体 类 型 ) 

Identifier (标识 符 ) 

Identifying owner (标识 主体 ) 

Identifying relationship (标识 联系 ) 

Maximum cardinality (最 大 基数 ) 

Minimum cardinality (最 小 基数 ) 


复习 题 
1. 写 出 下 列 术语 的 定义 : 


a. 实体 类 型 b. 实体 一 联系 模型 


e. 联系 类 型 f 标识 符 
i. 基数 约束 j. 弱 实 体 
m. 业务 规则 

2. 将 下 列 术 语 和 定义 连 线 : 

复合 属性 

关联 实体 

一 元 联系 

弱 实 体 

属性 

实体 

联系 类 型 

基数 约束 








标识 符 
实体 类 型 
三 
材料 清单 
3. 比较 下 列 术语 : 

a. 存储 属性 ; 推导 属性 
. 实体 类 型 ; 联系 类 型 
， 度 ; 约束 
g. 复合 属性 ; 多 值 属性 





O 〇 ) 


© 


. 请 陈述 选择 实体 标识 符 的 四 个 标准 。 


0 ~ OH nh 上 


Mnultivalued attribute (多 值 属性 ) 
Optional attribute (可 选 属性 ) 
Relationship instance (联系 实例 ) 
Relationship type (联系 类 型 ) 
Required attribute (必要 属性 ) 


Simple (or atomic) attribute (简单 (或 原子 ) 属性 ) 


Strong entity type( 强 实体 类 型 ) 
Ternary relationship (三 元 联系 ) 
Time stamp (时 间 截 ) 

Unary relationship (一 元 联系 ) 
Weak entity type( 弱 实体 类 型 ) 


c. 实体 实例 d. 属性 
g. 多 值 属性 h. 关联 实体 
k. 标识 联系 1. 推导 属性 


a. 唯一 标识 一 个 实体 实例 
.涉及 单个 实体 类 型 的 实例 
.限定 实例 数量 的 最 大 值 和 最 小 值 
. 联系 建 模 为 一 个 实体 类 型 
实体 类 型 之 间 的 关联 

相似 实体 集合 

联系 中 参与 的 实体 类 型 数量 
.一 个 实体 的 性 质 

可 以 分 解 成 两 个 组 成 部 分 
依赖 于 男 一 个 实体 类 型 的 存在 
.三 度 的 联系 

1. 多 对 多 的 一 元 联系 

m. 人、 地点、 对象、 概念 、 事 件 


PH mo En go 


” 


b. 简单 属性 ; 复合 属性 
d. 强 实体 类 型 ， 弱 实体 类 型 
f， 必 要 属性 ; 可 选 属性 
kh、 三 元 联系 ; 三 个 二 元 联系 


. 很 多 系统 设计 人 员 认 为 数据 建 模 是 系统 发 展 进程 中 最 重要 的 部 分 ,给 出 三 个 原因 。 
.在 一 个 组 织 中 ,你 从 哪 可 以 发 现 业 务 规则 ? 
. 请 陈述 在 数据 模型 中 数据 对 象 命 名 的 6 条 一 般 性 规则 。 


为 什么 一 些 标识 符 必 须 是 复合 的 ， 而 不 是 简单 的 ? 
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9. 请 陈述 三 个 建议 设计 者 应 该 将 联系 作为 一 个 关联 实体 类 型 进行 建 模 的 条 件 。 

10. 列 出 四 种 类 型 的 基数 约束 ， 每 一 种 举 一 个 例子 。 

11. 举 一 个 非 本 章 介 绍 的 弱 实 体 类 型 的 例子 ,说明 为 什么 需要 指明 一 个 标识 联系 。 

12. 联系 的 度 是 什么 ?分别 列 出 本 章 描述 的 三 种 联系 的 度 的 三 个 例子 。 

13. 给 下 列 每 一 个 术语 举 一 个 例子 ( 除 本 章 介 绍 以 外 的 )， 并 验证 你 的 答案 : 
a. 推导 属性 b. 多 值 属 性 c. 原子 属性 d. 复合 属性 
e. 必要 属性 f. 可 选 属性 

14. 给 下 列 每 一 个 术语 举 一 个 例子 ( 除 本 章 介 绍 外 的 )， 并 清楚 地 解释 为 什么 你 的 例子 是 这 种 类 型 的 联 
系 而 不 是 其 他 类 型 。 
a. 三 元 联系 b. 一 元 联系 

15. 举例 说 明 有 效 日 期 作为 实体 属性 的 作用 。 

16. 联系 命名 的 特殊 准则 是 什么 ? 

17. 除了 已 经 解释 的 内 容 ， 联 系 的 定义 还 应 该 有 哪些 解释 。 

18. 对 于 图 2-12a 中 的 管理 联系 ,描述 一 种 或 多 种 会 导致 一 元 联系 两 端 出现 不 同 基 数 的 情况 。 根据 你 
对 本 例 的 理解 ， 你 是 否认 为 E-R 图 能 够 清晰 简单 地 体现 业务 规则 并 导致 了 特定 基数 结果 ， 验 证 你 
的 答案 。 

19. 解释 实体 类 型 和 实体 实例 之 间 的 区 别 。 

20. 为 什么 建议 将 三 元 联系 转换 为 一 个 关联 实体 ? 


问题 与 练习 


1， 移 动 运营 商 需要 数据 库 记录 客户 信息 ， 还 包括 客户 签署 的 合约 以 及 客户 正在 使 用 的 手机 (移动 电 
话 ) 等 信息 。 图 2-23 的 E-R 图 说 明了 运营 商 感 兴趣 的 主要 实体 以 及 实体 之 间 的 联系 。 仔 细 读 图 ， 
回答 下 列 问 题 ， 并 给 出 答案 的 理由 。 在 E-R 图 中 标示 出 确定 每 个 答案 的 要 素 。 





图 2-23 ”问题 与 练习 1 图 例 


a. 一 个 客户 可 以 签订 多 个 合约 吗 ? 

b. 可 以 存在 一 个 没有 签订 合约 的 客户 吗 ? 

c. 可 以 创建 一 个 不 明确 客户 的 合约 吗 ? 

d. 运营 商 是 否 希 望 通过 特定 的 手机 类 型 与 一 个 特定 的 合约 类 型 产生 联系 ? 
e. 如 果 不 将 手机 与 一 个 合约 联系 ， 是 否 可 以 维护 手机 的 相关 数据 ? 

f. 一 个 手机 可 以 与 多 个 合约 关联 吗 ? 

g. 图 2-23 的 模型 中 是 否 包含 一 个 手机 可 以 安装 多 个 操作 系统 的 情况 ? 
h. 若 没 有 保留 制造 商 的 手机 信息 ， 是 否 能 够 追踪 到 这 个 制造 商 ? 
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i. 


让 


k. 
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一 个 操作 系统 是 否 适用 于 不 同型 号 的 手机 ? 

客户 和 合约 之 间 的 联系 有 两 种 ,解释 它们 的 区 别 。 

描述 客户 之 间 联 系 的 度 和 基数 ， 并 解释 它们 的 含义 。 

一 个 合约 里 包含 多 名 客户 ,能 否 通过 手机 联系 到 其 中 的 一 个 特定 的 客户 ? 


m. 运 营 商 可 以 跟踪 一 个 不 能 识别 其 操作 系统 的 手机 吗 ? 


i 


i1. 


a, 


a 


0 


全 


Om 


a 


> 


一 - 


3. 
b. 


C. 


d. 


©. 


. 根据 下 面 的 描述 ， 完 成 以 下 任务 : 


标识 联系 的 度 和 基数 。 

用 E-R 图 表示 每 个 描述 中 的 联系 。 

一 本 书 是 通过 它 的 ISBN 号 进行 标识 的 ， 男 外 书 还 有 标题 、 价 格 和 出 版 日 期 等 信息 。 书 由 出 版 商 
出 版 ， 每 个 出 版 商都 有 ID 号 和 名 字 。 每 本 书 只 能 有 一 个 出 版 商 ， 但 通常 一 个 出 版 商 可 以 出 版 多 
种 书籍 。 

一 本 书 (参考 2a) 由 一 位 或 多 位 作者 编写 ， 每 位 作者 由 作者 编号 来 标识 ， 还 有 作者 姓名 和 出 生日 
期 信息 。 每 位 作者 有 一 部 或 多 部 著作 ; 此 外 ， 还 有 一 部 分 尚未 出 版 任何 书籍 但 将 来 可 能 会 出 书 的 
作者 的 数据 。 z 


. 在 2a 和 2b 规定 的 范围 内 ， 每 本 书 和 其 作者 之 间 的 联系 可 以 通过 更 多 的 信息 进行 描述 。 具 体 来 


说 ,特定 作者 在 版 权 中 所 占 百分比 以 及 每 位 作者 排名 是 很 重要 的 ,不管 该 特定 作者 是 否 是 这 本 
书 的 主要 作者 。 


.一 本 书 (参考 2a) 可 以 是 一 个 系列 中 的 一 部 分 ， 也 有 其 自身 的 ISBN 号 。 一 本 书 可 以 属于 多 个 系 


列 ， 一 个 系列 由 至 少 一 本 或 多 本 书 组 成 。 


. 一 个 钢琴 制造 商 想 要 记录 所 有 钢 著 的 数据 以 保证 每 台 钢 琴 都 是 独一无二 的 。 每 台 钢 琴 都 有 一 个 


序列 号 标识 和 制造 完成 日 期 。 每 台 钢 琴 只 代表 一 个 钢琴 模型 所 有 这 些 都 有 一 个 标识 号 码 和 名 
称 。 此 外 ,该 公司 希望 保存 有 关 模 型 的 设计 者 的 信息 。 随 着 时 间 的 推移 ， 公 司 经 常生 产 数 千 台 
某 型 号 的 钢琴 ， 并 且 模 型 设计 信息 一 定 是 在 任 一 钢琴 存在 之 前 出 现 。 

钢琴 制造 商 (参考 2e) 在 钢琴 出 货 之 前 ， 会 雇佣 钢 压 技师 对 钢 芍 进行 检查 。 每 台 钢 从 由 至 少 两 名 
技师 〈 由 员工 号 码 标识 ) 检查 。 每 次 的 检验 都 要 记录 检验 日 期 和 质量 评价 等 级 。 


. 钢琴 技师 (参考 2f) 间 存 在 上 下 级 的 层次 汇报 联系 : 一 部 分 技师 担负 检查 监督 的 责任 ,除了 承担 


检验 角色 和 听取 其 他 技术 人 员 的 汇报 外 ， 还 要 向 公司 首席 技术 员 进 行 汇报 。 

一 个 销售 商 生 产 多 种 型 号 的 平板 电脑 ， 每 一 种 型 号 都 有 识别 号 码 和 名 称 ， 每 种 型 号 的 主要 参数 
包括 存储 空间 和 显示 类 型 。 采 用 多 种 型 号 的 处 理 器 组 装 平板 电脑 ， 每 种 型 号 处 理 器 都 对 应 了 特 
定型 号 的 平板 电脑 。 显 然 ， 同 一 款 处 理 器 可 用 于 多 个 型 号 的 平板 电脑 ， 每 种 处 理 器 都 有 一 个 制 
造 商 和 一 个 唯一 标识 制造 商 的 代码 。 


. 销售 商 (参考 2h) 制造 的 每 台 平板 电脑 都 由 它 的 型 号 和 一 个 在 该 型 号 中 唯一 的 序列 号 来 进行 识 


别 。 销 售 商 和 希望 保存 每 台 平 板 电 脑 是 何 时 送 达 到 客户 手中 的 信息 。 


. 每 种 型 号 的 平板 电脑 (参考 2h) 都 有 一 个 特定 的 操作 系统 ， 公 司 雇佣 的 每 个 技术 人 员 要 经 过 认证 


才能 组 装 一 种 特定 型 号 的 平板 电脑 的 操作 系统 组 合 。 认 证 的 有 效 性 是 指 员 工 通过 组 合 认证 考试 
那天 开始 的 ， 并 且 认 证 的 有 效 期 为 一 个 特定 的 时 间 ， 时 间 的 长 短 取决 于 平板 电脑 操作 系统 组 合 。 


.根据 图 2-21 回答 以 下 问题 : 


哪里 存在 一 元 联系 ， 它 代表 什么 含义 ,什么 原因 导致 这 些 基 数 和 其 他 组 织 中 的 不 一 样 ? 

为 什么 Includes (包括 ) 是 一 个 一 对 多 的 联系 ， 为 什么 它 与 其 他 组 织 中 的 同类 联系 不 同 ? 

在 产品 进入 生产 线 之 前 ，Includes 联系 是 否 允 许 数 据 库 中 存在 这 个 产品 的 信息 (例如 ， 产 品 处 于 
研发 阶段 时 ) ? 

针对 每 一 位 员工 拥有 的 技能 是 否 标 有 能 力 等 级 ， 在 数据 模型 的 哪里 可 以 评定 这 个 等 级 ? 

DOES BUSINESS IN (经 营 范 围 ) 关联 实体 是 什么 意思 ， 为 什么 每 个 DOES BUSINESS IN 实例 
都 必须 与 一 个 确定 的 TERRITORY (区 域 ) 和 一 位 CUSTOMER (客户 ) 相关 联 ? 
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f 以 什么 样 的 方式 会 使 Pine Valley 改变 它 的 经 营 方式 ， 从 而 导致 Supplies 关联 实体 被 淘汰 和 它 周 
围 关 系 的 改变 ? 

4. 本 章 关 于 图 2-21 给 出 了 描述 Pine Valley 家 具 公 司 中 实体 以 及 实体 之 间 联 系 的 符号 列表 ， 对 于 列表 
中 的 10 点 中 的 每 一 个 ， 识 别 图 2-21 中 对 这 个 点 描述 的 子 集 。 

S， 你 可 能 已 经 掌握 了 利用 CASE 或 绘图 工具 来 开发 概念 数据 模型 的 技能 ， 使 用 这 个 工具 ， 尝 试 重新 
绘制 这 一 草 的 所 有 E-R 图 ， 你 觉得 有 哪些 不 太一 样 的 地 方 ? 使 用 这 个 工具 ， 你 觉得 哪些 E-R 图 的 
符号 没有 被 很 好 地 解释 ?你 是 怎么 处 理 那些 不 能 直接 通过 工具 的 符号 转化 的 E-R 图 符号 ? 

6. 考虑 图 2-24 中 的 两 个 E-R 图 ， 它 表示 了 两 个 不 同城 市 (A 和 B) 的 社会 服务 机 构 和 志愿 者 情况 的 
数据 库 ， 对 于 下 面 的 三 个 问题 。 在 “城市 A” “城市 B” 或 “都 不 选 ” 的 选项 下 面 画 对 勾 ， 表 示 
选择 最 好 的 答案 。 


部 不 
a. 哪个 城市 目前 只 维护 当前 协助 机 构 的 志愿 者 数据 7 | | | 
b. 哪个 城市 中 一 名 志愿 者 可 以 为 多 个 机 构 服务 ? i 
c. 哪个 城市 中 一 名 志愿 者 可 以 更 换 其 所 协助 的 机 构 ? | | 


城市 A 城市 B 


服务 服务 
od wr > 7 


图 2-24 ”问题 与 练习 6 图 例 


7. STUDENT (学 生 ) 实体 类 型 包含 以 下 属性 : Student Name (学 生 姓 名 )、Address (地 址 )、Phone ( 电 
话 号 码 )、Age (年 龄 )、Activity (活动 ) 和 No of Years (活动 年 限 )，Activity 代表 的 是 在 校园 里 开 
展 的 一 些 学 生活 动 ，No of Years 代表 学 生 参 加 这 些 活动 的 持续 时 间 。 一 名 学 生 可 以 参与 多 项 活动 ， 
为 这 种 情况 绘制 一 个 实体 - 联系 图 。 你 会 把 哪个 或 哪些 属性 指定 为 STUDENT 实体 的 标识 符 ， 为 
什么 ? 

8. 关联 实体 也 是 弱 实体 吗 ? 为 什么 是 或 为 什么 不 是 ?” 如果 是 ， 它 们 的 “ 弱 ” 体 现在 哪些 特别 的 地 方 ? 

9. 因为 Visio 不 能 明确 表示 关联 实体 ， 所 以 在 图 2-21 中 可 能 不 太 清 楚 哪 些 实体 类 型 是 关联 实体 。 列 
出 图 中 的 关联 实体 并 解释 为 什么 在 图 2-21 中 有 如 此 多 的 关联 实体 ? 

10. 图 2-25 显示 了 在 每 个 学 期 末 邮 寄 给 学 生 的 成 绩 报 告 单 ， 绘 制 一 个 能 够 反映 成 绩 报告 单 情况 的 实 
体 - 联系 图 。 假 设 每 门 课程 由 一 位 老师 讲授 ， 同 时 ， 使 用 你 在 课程 中 被 要 求 使 用 的 工具 来 绘制 这 
个 数据 模型 ， 解 释 在 绘制 实体 - 联系 图 时 为 每 一 个 实体 类 型 选择 标识 符 的 原因 。 
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.准确 地 为 下 面 每 一 个 图 例 添加 最 小 和 最 大 基数 注释 : 


a. 图 2-5 b. 图 2-10a c. 图 2-11b d. 图 2-12 (所 有 部 分 ) 
e. 图 2-13c f. 图 2-14 


.问题 与 练习 11d 的 一 个 明显 答案 可 以 通过 图 2-12a 中 的 Is Married To 联系 找到 ， 即 直到 时 间 因 素 


影响 了 数据 建 模 。 为 PERSON 实体 类 型 建立 一 个 数据 模型 ， 考 虑 Is Married To 联系 对 下 面 的 每 一 
种 情况 下 选择 合适 基数 的 影响 ， 甚 至 包括 任 一 属性 : 

a, 对 于 任何 一 个 人 ， 需 要 知道 这 个 人 当前 会 跟 谁 结婚 (这 个 就 像 你 在 回答 问题 与 练习 11d 时 的 情 

况 一 样 )。 

b. 对 于 任何 一 个 人 ， 需 要 知道 这 个 人 曾经 跟 谁 结 过 婚 。 

c. 对 于 任何 一 个 人 ,需要 知道 这 个 人 曾经 跟 谁 结 过 婚 ， 他们 结婚 的 日 期 是 哪 天 ， 如 果 有 的 话 ， 还 
有 他 们 婚姻 结束 的 日 期 。 

. 对 于 c 中 同样 的 情况 ， 还 要 考虑 (可 能 你 在 c 中 没有 做 ) 同样 的 两 个 人 在 一 段 婚姻 结束 后 又 复 
婚 的 情况 。 

.在 历史 上 甚至 在 今天 的 某 些 文化 中 ， 有 可 能 存在 法 律 不 限制 一 个 人 当前 可 以 结婚 的 人 数 。 遇 到 
这 种 情况 时 ， 关 于 问题 与 练习 c 题 的 答案 该 如 何 处 理 ， 或 者 必须 做 哪些 改变 (如 果 是 这 样 的 话 ， 
绘制 新 的 实体 - 联系 图 )。 


全 


0 


. 图 2-26 表现 的 是 既 在 学 校 兼职 ， 又 属于 ( Belongs To) 不 同学 校 的 俱乐部 的 学 生 的 情况 ， 仔 细 研 


究 这 张 图 ， 辨 别 其 中 体现 了 哪些 业务 规则 。 

a. 你 会 发 现 Works For (为 …… 工 作 ) 联系 中 没有 包含 基数 ， 给 这 个 联系 声明 一 个 业务 规则 ， 然 后 
给 出 一 个 与 这 个 规则 相 匹 配 的 基数 。 

b. 声明 一 个 让 Located In (位 于 ) 联系 没有 宛 余 的 业务 规则 (也 就 是 说 ， 俱 乐 部 所 属 学校 可 以 通过 
其 他 联系 推测 和 推断 出 来 )。 

c. 假如 一 名 学 生 只 能 在 其 所 在 学 校 兼职 ， 学 生 可 以 只 参加 ( Attends) 但 不 工作 。 那 么 Works For 
联系 是 否 仍 然 是 必要 的 ?另外 能 不 能 以 其 他 方式 表达 一 个 学 生 是 否 为 这 个 学 校 工 作 (如 果 是 这 
样 的 话 ， 怎 么 做 ) ? 


.图 2-27 展现 了 两 个 图 (A 和 B)， 两 者 都 是 采用 了 合法 的 方式 来 表示 一 只 股票 的 历史 价格 。 你 认为 


哪 种 方式 能 够 更 好 地 模拟 股票 的 历史 价格 ， 为 什么 ? 
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图 2-26 ”问题 与 练习 13 图 例 图 2-27 问题 与 练习 14 图 例 


.修改 图 2-11a 使 之 能 够 模拟 以 下 附加 信息 要 求 : 培训 主任 确定 每 个 员工 完成 的 每 门 课程 和 谁 ( 哪 


个 员工 ) 需要 被 通知 课程 已 经 完成 。 培 训 主 管 需 要 追踪 哪些 员工 被 通知 了 每 门 完 成 的 课程 。 通 知 
的 日 期 是 记录 有 关 此 通知 的 唯一 属性 。 


， 回顾 图 2-8 和 图 2-21。 


a. 识别 在 图 2-21 中 没有 被 标识 但 有 可 能 表示 为 复合 属性 的 属性 。 阅 述 你 的 建议 。 并 重 绘 实体 一 联 
系 图 反映 你 的 建议 。 
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b. 识别 在 图 2-21 中 没有 被 标识 但 有 可 能 表示 为 多 值 属性 的 属性 。 阐 述 你 的 建议 ， 并 重 绘 实体 一 联 
系 图 反映 你 的 建议 。 

c. 有 没有 可 能 存在 一 个 既是 复合 属性 又 是 多 值 属性 的 属性 ”如 果 没 有 可 能 ， 解 释 你 的 答案 ， 如 果 
有 可 能 ， 请 举 一 个 例子 (提示: 考虑 图 2-21 中 的 CUSTOMER 的 属性 )。 


.为 下 面 描述 的 每 种 情况 绘制 一 个 实体 -联系 图 。( 如 果 你 认为 需要 做 额外 的 假设 ,对 每 种 情况 的 假 


设 进行 清晰 的 说 明 。) 使 用 你 在 课程 中 学 到 的 绘图 工具 进行 绘制 。 

a. 一 个 公司 有 很 多 员工 ， 员 工 的 属性 包括 工 号 (标识 符 )、 姓 名 、 地 址 和 出 生日 期 。 公 司 还 有 一 些 
项 目 , 项 目的 属性 包括 项 目 编 号 (标识 符 )、 项 目 名 称 和 起 始 日 期 。 每 名 员工 都 可 以 被 分 配 到 0 
个 或 多 个 项 目 。 一 个 项 目 必须 至 少 分 配给 一 名 员工 或 者 多 名 员工 。 一 名 员工 的 薪酬 会 因为 项 目 
不 同 而 有 所 不 同 ， 并 且 公 司 硕 望 为 被 分 配 到 特定 项 目的 员工 制定 合适 的 薪酬 。 以 上 描述 中 的 属 
性 名 是 否 遵循 属性 命名 的 原则 ? 如 果 不 遵 循 ， 给 出 更 好 名 字 的 建议 。 在 你 绘制 的 实体 - 联系 图 
中 有 没有 涉及 关联 实体 ? 如 果 有 ， 这些 关联 实体 的 标识 符 是 什么 ”你 绘制 的 实体 - 联系 图 中 是 
否 允 许 一 个 项 目 在 没有 被 分 配给 任何 员工 之 前 就 被 创建 ?解释 原因 。 如 果 薪 酬 在 项 目 中 途 被 改 
变 ， 将 如 何 修改 你 绘制 的 实体 - 联系 图 ? 

一 个 实验 室 有 一 些 化 学 家 在 为 一 个 项 目 或 多 个 项 目 工作 ， 每 个 项 目 对 应 了 一 些 特定 的 实验 仪器 。 
化 学 家 的 属性 包括 : 工 号 (标识 符 )、 姓 名 和 电话 号 码 ， 项 目的 属性 包括 : 项 目 编号 (标识 符 ) 
和 开始 日 期 。 实 验 仪 右 的 属性 包括 : 序列 号 和 成 本 。 组 织 中 希望 记录 仪器 分 配 的 日 期 一 一 就 是 
说 ， 一 个 仪器 被 分 配给 一 个 进行 指定 项 目 研究 的 化 学 家 的 日 期 。 一 名 化 学 家 必须 至 少 被 分 配 到 
一 个 项 目 和 一 套 实验 仪器 设备 。 一 个 给 定 的 实验 仪器 设备 不 能 被 重复 分 配 ， 一 个 给 定 的 项 目 不 
需要 分 配 任 何 一 个 化 学 家 或 仪器 设备 。 对 这 种 情况 下 涉及 的 联系 给 出 合理 的 定义 。 

. 大 学 里 的 一 门 课程 可 能 有 0 个 或 多 个 设 定 章节 ， 课 程 的 属性 包括 : 课程 的 ID 号、 课程 名 和 课程 
单元 。 章 节 的 属性 包括 : 章节 号 和 学 期 ID 号 ， 学 期 号 由 两 部 分 组 成 : 学 期 和 学 年 。 章 节 号 是 一 
个 整数 (如 1 或 2)， 用 来 区 分 同一 课程 的 不 同 章节 ， 但 它 不 能 用 来 唯一 标识 章节 。 思 考 如 何 为 
章节 建 模 ?与 其 他 可 选 的 方式 进行 比较 ， 你 为 什么 选择 这 种 方法 为 章节 建 模 ? 

一 家 医院 拥有 大 量 的 注册 医生 ， 医 生 的 属性 包括 : 医生 ID 号 〈 标 识 符 ) 和 科室 。 患 者 在 医院 接 
受 医生 的 治疗 ， 患 者 的 属性 包括 : 患者 ID 号 (标识 符 ) 和 患者 姓名 。 任 何 一 名 患者 入 院 治 疗 必 
须 有 一 个 主治 医生 ， 一 名 医生 可 以 选择 治疗 任何 数量 的 患者 。 患 者 一 旦 人 院 ， 至 少 有 一 名 医生 
为 其 治疗 ， 一 名 特别 的 医生 可 以 为 0 个 或 者 多 名 患者 进行 治疗 。 当 患者 接受 医生 的 治疗 时 ， 医 
院 和 希望 记录 治疗 的 细节 《或 称病 历 )。 治 疗 细节 的 组 成 部 分 包括 : 日 期 、 时 间 和 结果 。 你 能 绘制 
出 医生 和 患者 间 的 一 种 或 多 种 联系 吗 ? 为 什么 ? 你 把 医院 作为 一 个 实体 类 型 了 吗 ? 为 什么 ? 在 
你 绘制 的 实体 - 联系 图 中 ， 人 允许 同一 个 患者 在 不 同时 间接 受 不 同 的 医生 进行 治疗 吗 ? 怎样 做 到 
在 你 绘制 的 实体 - 联系 图 中 包含 每 个 患者 的 每 次 人 院 日 期 ? 

. 当 银 行 贷款 办 公 室 收 到 来 自 各 部 门 的 贷款 请 求 后 ， 必 须 去 调查 、 了 解 客户 的 信用 状况 。 每 个 贷 
款 申 请 都 由 一 个 请 求 ID 号 来 标识 ， 并 通过 申请 日 期 和 申请 部 门 名 称 进行 描述 。 贷 款 办 公 室 会 
收 到 信用 检查 结果 ， 信 用 检查 由 信用 检查 ID 号 进行 标识 ， 并 通过 信用 检查 日 期 和 信用 等 级 进 
行 描 述 。 贷 款 办 公 室 要 求 贷款 请 求 要 和 信用 检查 结果 相 匹 配 。 贷 款 请 求 在 信用 检查 结果 出 来 之 
前 就 被 记录 ， 一 个 特别 的 信用 检查 结果 可 能 会 在 其 贷款 请 求 中 起 到 支持 作用 。 请 为 上 面 所 描述 
的 情况 绘制 一 个 实体 -联系 图 。 假 设 加 入 信用 检查 结果 不 能 被 多 个 贷款 请 求 重 复 使 用 的 条 件 约 
束 ， 通 过 两 个 实体 类 型 来 绘制 这 种 情况 的 实体 -联系 图 ， 然 后 再 使 用 一 个 实体 类 型 重新 绘制 。 
哪 一 个 版 本 更 好 ， 为 什么 ? 

公司 通过 公司 ID 号 进行 识别 ， 并 通过 公司 名 称 和 企业 类 型 进行 描述 。 雇 佣 顾 问 是 多 值 的 ， 通 
过 顾问 ID 号 进行 标识 ， 并 通过 顾问 姓名 和 顾问 专长 进行 描述 。 假 设 一 名 顾问 在 一 个 时 间 段 内 
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只 能 为 一 家 公司 工作 ， 我们 只 需 跟 踪 当 前 的 咨询 业务 。 为 这 种 情况 绘制 一 个 实体 -联系 图 。 考 
虑 加 入 一 个 新 属性 小 时 工资 率 ， 它 是 一 个 顾问 向 其 提供 服务 的 公司 进行 收费 的 标准 。 重 新 绘制 
包含 这 个 新 属性 的 实体 -联系 图 。 再 考虑 一 个 顾问 为 一 个 公司 工作 时 ， 需 要 签订 一 个 合同 来 书 

面 说 明 这 个 咨询 项 目的 一 些 具体 条 款 。 合 同 通过 公司 ID 号 、 雇 员 ID 号 和 合同 日 期 的 组 合 进行 

标识 。 假 设 在 一 段 时 间 内 ， 一 个 顾问 仍然 只 为 一 个 公司 工作 ， 重 新 为 这 种 新 情况 绘制 实体 - 联 

系 图 。 在 这 种 最 新 的 情况 中 ， 你 会 为 不 同 的 实体 类 型 改变 任 一 属性 吗 ? 现在 考虑 最 后 一 种 情况 ， 

虽然 顾问 在 一 段 时 间 内 为 一 个 公司 工作 , 但 现在 需要 保存 每 个 顾问 和 公司 的 所 有 历史 咨询 项 目 

资料 。 为 这 种 最 终 情况 绘制 实体 - 联系 图 。 如 果 是 这 样 的 话 ， 解 释 为 什么 不 同 的 条 件 导致 了 不 

同 的 数据 模型 ? 

一 个 艺术 博物 馆 拥 有 大 量 的 艺术 作品 ， 每 一 件 艺术 作品 由 编码 (标识 符 )、 标 题 、 类 型 和 尺寸 来 

描述 ; 尺寸 由 高 度 、 宽 度 和 重量 组 成 。 一 件 艺术 作品 是 由 一 位 艺术 家 创造 的 ,但 是 这 个 艺术 家 

还 有 一 些 不 出 名 的 作品 。 一 位 艺术 家 通过 艺术 家 ID 号 (标识 符 )、 姓 名 、 出 生日 期 和 死亡 日 期 

(还 在 世 的 艺术 家 没有 这 项 属性 ) 来 描述 。 数 据 库 中 只 包含 目前 在 博物 馆 有 自己 的 艺术 作品 的 艺 

术 家 的 数据 。 在 某 一 时 间 段 ， 艺 术 作 品 可 能 被 陈列 在 博物 馆 、 存 储 在 仓库 或 离开 博物 馆 作为 巡 

回 展览 的 一 部 分 ， 也 可 能 被 其 他 画廊 借 去 展览 。 在 博物 馆 陈 列 的 一 件 艺 术 作 品 可 以 通过 它 在 博 

物 馆 陈 列 的 位 置 进行 描述 。 一 个 巡回 展览 可 以 通过 展览 ID 号 (标识 符 )、 当 前 展览 所 在 的 城市 

以 及 展览 的 开始 和 结束 日 期 进行 描述 。 很 多 博物 馆 的 作品 都 是 一 个 特定 展览 中 的 一 部 分 ， 只 有 

至 少 有 一 个 博物 馆 艺 术 品 的 自己 主办 的 展览 需要 在 数据 库 中 表示 。 最 后 ， 一 个 画廊 通过 画廊 ID 

号 (标识 符 )、 名 称 和 城市 进行 描述 。 博 物 馆 想 要 保存 一 件 艺 术 作 品 被 其 他 画廊 借用 的 全 部 历史 

记录 ， 每 当 作品 被 借 出 ， 博 物 馆 希 望 知道 作品 被 借 出 的 日 期 和 归还 的 日 期 。 根 据 以 上 描述 绘制 

实体 - 联系 图 ， 并 遵循 数据 命名 规则 。 

h. 由 Dewey 、Cheetim 和 Howe 组 成 的 律师 事务 所 处 理 的 每 个 案件 都 有 一 个 特有 的 案件 号 ， 案 件 号 
由 两 部 分 构成 : 一 部 分 数据 是 开放 的 ， 一 部 分 数据 是 保密 的 ， 每 个 案件 的 判决 结果 也 要 被 保存 。 
一 个 案件 有 一 个 或 多 个 原告 ， 同 一 个 原告 可 能 会 涉及 多 个 案件 。 原 告 具 有 请 求 判 决 的 特征 。 一 
个 案件 涉及 一 个 或 多 个 被 告 ， 同 一 个 被 告 可 能 会 涉及 多 个 案件 。 原 告 或 被 告 可 能 是 一 个 人 或 一 
个 组 织 。 随 着 时 间 的 推移 ， 同 一 个 人 或 组 织 在 很 多 案件 中 可 能 是 原告 或 被 告 。 将 上 面 描 述 的 法 
律 内 容 通过 实体 号 来 标识 ， 其 他 属性 有 名 称 和 资本 净值 。 根 据 上 面 的 描述 绘制 实体 - 联系 图 ， 
并 遵循 数据 命名 规则 。 

i. 每 个 出 版 社 都 有 一 个 唯一 的 名 称 ， 此 外 还 有 邮寄 地 址 和 电话 号 码 。 一 个 出 版 社 出 版 一 本 或 多 本 
书籍 ;一 本 书 只 能 由 一 个 出 版 社 出 版 。 一 本 书 通过 它 的 ISBN 号 进行 标识 ， 其 他 属性 有 : 标题 、 
价格 和 页 数 。 每 本 书 由 一 位 或 多 位 作者 编写 ; 一 位 作者 可 能 会 为 不 同 的 出 版 社 编写 一 本 或 多 本 
书 。 每 一 位 作者 通过 作者 ID 号 唯一 标识 ， 其 他 属性 有 作者 的 姓名 和 地 址 。 每 一 位 作者 会 因为 
其 著作 获得 一 定 的 版 权 费 用 ， 费 用 的 多 少 会 根据 书 的 内 容 或 作者 知名 度 产 生 差异 。 作 者 会 为 写 
的 每 本 书 获得 一 张 单独 的 版 权 费 用 文 票 。 每 一 张 支 票 通 过 文 票 号 码 进 行 标识 ， 还 会 记录 文 票 的 
时 间 和 人 金额。 根据 以 上 描述 ， 为 这 类 问题 绘制 实体 一 联系 图 ， 并 遵循 数据 命名 规则 。 
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. 假设 Pine Valley 家 具 公 司 的 每 件 产 品 (通过 产品 号 码 、 产 品 描述 和 成 本 进行 描述 ) 都 由 三 个 组 件 


(通过 组 件 号 码 、 组 件 描 述 和 计量 单位 来 描述 ) 组 成 ， 并 且 组 件 可 以 用 于 组 合 一 个 或 多 个 产品 。 此 
外 ， 假 设 一 些 组 件 可 以 用 于 组 合 其 他 组 件 ， 而 且 原 材料 也 被 作为 组 件 。 在 这 些 情 况 下 ， 就 需要 记 
录 组 成 一 件 家 具 使 用 了 多 少 个 组 件 。 根 据 以 上 描述 绘制 实体 - 联系 图 ， 并 在 图 中 标明 最 大 、 最 小 
基数 ， 同 时， 用 本 课程 学 到 的 工具 为 这 些 描述 建立 一 个 数据 模型 。 


.新 兴 电 器 希望 创建 具有 以 下 实体 和 属性 的 数据 库 : 


e 顾客 : 顾客 编号 、 姓 名 、 地 址 ( 街 、 城 市 、 州 、 邮 政 编码 )、 电 话 
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e 位 置 : 位 置 编号 、 地 址 ( 街 、 城 市 、 州 、 邮 政 编 码 )、 类 型 (商业 区 或 居民 区 ) 
e 等 级 : 运营 等 级 、 每 小 时 营业 额 
对 店主 进行 采访 之 后 ， 提 出 以 下 业务 规则 : 
e 顾客 可 以 有 一 个 或 多 个 位 置 。 
。 每 个 位 置 有 一 个 或 多 个 等 级 ， 取 决 于 一 天 中 的 时 刻 。 
根据 以 上 描述 绘制 实体 - 联系 图 ， 并 在 图 上 标明 最 大 、 最 小 基数 ， 同 时 ， 用 本 课程 中 所 学 到 
的 工具 为 这 些 描 述 建 立 一 个 数据 模型 。 投 述 你 做 出 的 任何 假设 。 
每 个 学 期 都 会 给 每 名 学 生 分 配 一 名 导师 ， 导 师 和 学 生 讨 论 相关 的 学 位 要 求 并 帮助 学 生 完 成 课程 注 
册 。 每 名 学 生 必须 在 导师 的 帮助 下 完成 课程 的 注册 ,但 是 如 果 为 学 生 分 配 的 导师 无 法 提供 帮助 ， 
那么 这 名 学 生 可 以 在 任何 一 名 其 他 导师 的 帮助 下 完成 注册 。 我 们 必须 记录 学 生 、 分 配给 每 个 学 生 
的 导师 以 及 本 学 期 和 学 生 一 起 完成 注册 的 导师 姓名 。 绘 制 这 种 情况 下 的 学 生 和 导师 的 E-R 图 。 同 
时 ， 用 本 课 中 学 到 的 工具 为 这 些 描述 建立 一 个 数据 模型 。 
回顾 本 章 中 的 图 2-4a， 认 为 接收 联系 、 汇 总 联系 以 及 出 纳 实 体 不 是 必需 的 。 现 在 ， 考 虑 一 个 稍微 
不 同 的 情况 ， 假 设 它们 是 必需 的 ， 出 于 遵从 性 目的 〈 例 如 ， 萨 班 斯 -奥克斯 利 法 案 的 遵从 )， 需 要 
知道 每 一 份 开支 报告 的 产生 时 间 以 及 哪些 主管 人 员 (不 仅 是 出 纳 ) 会 收 到 各 项 开支 报告 ， 以 及 什 
么 时 候 在 该 报告 上 签字 。 重 新 绘制 图 2-4a， 需 要 包括 修改 后 新 加 入 的 需求 属性 和 联系 。 
绘制 一 个 房地产 公司 的 实体 -联系 图 ， 并 列 出 房地产 销售 情况 。 同 时 为 你 绘制 的 图 上 的 每 一 个 实 
体 类 型 、 属 性 和 联系 准备 一 个 定义 ， 另 外 ,使 用 本 课程 中 学 到 的 工具 建立 符合 以 下 描述 的 数据 模 
型 。 下 面 对 这 个 组 织 进行 介绍 。 
。 这 家 公司 在 一 些 州 有 大 量 的 销售 办 事 处 。 销 售 办 事 处 的 属性 包括 办 公 室 号 码 (标识 符 ) 和 位 置 。 
。 每 个 销售 办 事 处 雇用 了 一 名 或 多 名 员工 ， 员 工 的 属性 包括 员工 编号 (标识 符 ) 和 员工 姓名 。 每 
名 员工 只 能 被 分 配给 一 个 销售 办 事 处 。 
e 对 于 每 个 销售 办 事 处 ， 总 有 一 名 员工 会 被 指派 来 管理 这 个 办 事 处 ， 员 工 只 对 其 被 指派 的 销售 办 
事 处 进行 管理 。 
公司 列 出 出 售 的 房产 ， 房 产 的 属性 包括 房产 编号 〈 标 识 符 ) 和 位 置 。 位 置 的 组 成 包括 地 址 、 城 
市 、 州 和 邮政 编码 。 
e 每 一 处 房产 只 能 在 一 个 〈 且 仅 一 个 ) 销售 办 事 处 被 列 出 ， 一 个 销售 办 事 处 可 以 有 0 或 多 处 房产 
被 列 出 。 
e 每 一 处 房产 可 以 有 一 名 或 多 名 业主 , 业主 的 属性 包括 业主 编号 〈 标 识 符 ) 和 业主 姓名 。 一 名 业 
主 可 以 拥有 一 处 或 多 处 房产 。 物 业 和 业主 之 间 的 联系 属性 是 所 占 百分比 。 
在 学 习 了 数据 库 管 理 课程 的 相关 内 容 后 ,绘制 一 个 交响 乐团 的 初始 实体 一 联系 图 ， 包 括 如 表 2-2 
所 示 的 实体 类 型 。 


表 2-2 问题 与 练习 23 中 的 实体 类 型 表 
音乐 节 | 音乐 节 期 间 有 一 系列 的 音乐 会 将 会 上 演 。 开 幕 日 期 为 标识 符 ， 包 括 年 、 月 、 日 


演出 一 首 或 多 首 曲目 。 音 乐 会 编号 为 标识 符 ， 另 一 个 重要 属性 是 音乐 会 日 期 ， 由 年 、 月 、 日 和 时 间 
组 成 。 一 场 音 乐 会 通常 有 多 个 音乐 会 日 期 


在 每 一 场 音乐 会 中 表演 的 曲目 。 曲 目 编号 为 标识 符 ， 由 作曲 者 姓名 和 曲目 名 组 成 。 男 一 个 属性 是 乐 
章 编号 ， 由 乐章 号 码 和 乐章 名 称 两 部 分 组 成 。 但 并 不 是 所 有 的 曲目 都 有 多 个 乐章 


指挥 家 | ”指挥 音乐 会 的 人 。 指 挥 家 编号 为 标识 符 ， 另 一 个 属性 是 指挥 家 姓名 


独奏 艺术 家 是 在 一 场 特定 的 音乐 会 上 表演 给 定 曲目 的 人 。 独 奏 者 编号 为 标识 符 ， 另 一 个 属性 是 独奏 者 
姓名 


24. 


和 人 


20. 
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进一步 分 析 讨 论 会 发 现 : 
音乐 节 安 排 了 一 场 或 多 场 音 乐 会 。 一 场 特别 的 音乐 会 只 会 在 一 个 音乐 节 上 被 安排 。 
一 场 音 乐 会 包括 一 首 或 多 首 曲目 的 表演 ， 一 首 曲目 可 能 会 在 0 场 或 多 场 音乐 会 上 表演 。 
每 一 场 音乐 会 有 一 位 指挥 家 ， 一 位 指挥 家 可 以 指挥 0 场 或 多 场 音 乐 会 。 
每 一 首 曲目 需要 0 位 或 多 位 独奏 者 。 一 位 独奏 者 在 一 场 指 定 的 音乐 会 上 可 以 表演 0 首 或 多 首 曲 
目 。 交 响 乐 团 硕 望 记 录 一 位 独奏 者 最 后 一 次 表演 一 首 指定 曲目 的 时 间 【〈 最 后 演出 日 期 )。 
根据 你 的 理解 绘制 一 个 实体 一 联系 图 来 表示 以 上 描述 的 业务 规则 ， 并 解释 这 些 业 务 规则 如 何 
在 E-R 图 中 建 模 。 同 时 ， 用 本 课 中 所 学 到 的 工具 为 这 些 描 述 建 立 一 个 数据 模型 。 
根据 以 下 情形 绘制 一 个 实体 - 联系 图 。( 陈 述 你 认为 绘制 一 张 完整 的 实体 -联系 图 应 该 做 出 的 所 
有 假设 ,) 同时 ， 使 用 你 熟悉 的 工具 为 这 种 情形 建立 一 个 数据 模型 : 斯 蒂 尔 沃 特 古董 城 ( Stillwater 
Antiques) 购买 和 销售 独一无二 的 各 类 古董 (例如 家 具 、 珠 宝 、 次 器 和 服装 )。 每 个 古董 由 一 个 古 
董 编 号 唯一 标识 .并 且 还 包 插 说明 、 开 价 、 古 董 状况 和 开放 式 评 论 特征 。 斯 带 尔 沃 特 与 很 多 个 体 
户 合作 ,这些 个 体 户 被 称 为 客户 ,他 们 向 斯 带 尔 沃 特 出 售 古董 并 且 也 从 斯 带 尔 沃 特 处 购买 古董 。 
一 部 分 客户 只 问 斯 带 尔 沃 特 出 售 上 古董， 一 部 分 客户 只 购买 上 古董， 还 有 一 部 分 客户 既 出 售 古董 也 购 
买 古 董 。 客 户 通 过 客户 编号 识别 ， 并 通过 客户 姓名 和 客户 地 址 进行 描述 。 当 斯 蒂 尔 沃 特 出 售 库存 
古董 给 客户 时 ,希望 记录 支付 的 佣金 、 实 际 的 销售 价格 、 销 售 税 ( 零 税 表示 免税 销售 ) 和 销售 日 
期 。 当 斯 带 尔 沃 特 从 客户 那里 购买 一 件 古 董 时 ,希望 记录 买 入 价格 、 购 买 日 斯 和 购买 时 的 状况 。 
为 下 面 的 情况 绘制 实体 -联系 图 。( 陈 述 你 认为 为 绘制 一 个 完整 的 图 应 该 做 出 哪些 假设 。) 同时 ， 
使 用 你 熟悉 的 工具 建立 数据 模型 : A. M. 洪 卡 商学 院 在 欧洲 10 个 校区 设 有 国际 商务 课程 ， 该 学 院 
的 第 一 届 毕 业 生 有 9 000 个 ， 毕 业 于 1965 年 。 学 院 记录 每 个 毕业 生 的 学 号 、 在 校 期 间 姓 名 、 出 生 
国籍 、 当 前 国籍 、 当 前 姓名 、 当 前 地 址 以 及 完成 学 习 的 专业 名 称 (一 个 学 生 可 以 选择 一 个 或 两 个 
专业 )。 为 了 与 校友 保持 紧密 联系 ， 学 院 会 在 世界 各 地 举办 各 种 活动 ， 每 次 活动 都 有 一 个 主题 、 日 
期 、 地 点 和 类 型 (例如 : 酒会、 晚宴 或 研讨 会 )。 学 院 需 要 记录 哪些 毕业 生 参 加 了 哪些 活动 。 对 
于 每 一 次 活动 ， 学 院 会 派 一 名 相关 负责 人 记录 每 个 参加 活动 的 毕业 生 的 相关 信息 。 学 院 还 通过 邮 
件 、 电 子 邮件 、 电 话 和 传真 与 毕业 生 保 持 联系 。 与 活动 一 样 ， 学 院 需 要 记录 通过 这 些 联系 方式 从 
毕业 生 那 里 获得 的 相关 信息 。 当 一 名 学 校 相 关 负 责 人 知道 他 将 会 和 毕业 生 对 话 时 ， 需 要 产生 一 份 
关于 毕业 生 的 最 新 信息 以 及 从 最 近 两 年 与 毕业 生 的 联系 和 毕业 生出 席 的 活动 中 获取 的 相关 信息 的 
JE 
Wally Los Gatos 是 Wally'"s Wonderful World 壁纸 的 主人 ， 现 在 聘请 您 作 顾 问 ， 为 Wally 销售 的 墙 
纸 及 附件 的 三 家 连锁 店 设计 一 个 数据 库 管 理 系 统 。Wally 希望 系统 可 以 记录 销售 、 客 户 和 员工 的 
信息 。 在 开始 设计 E-R 模型 之 前 ， 经 过 与 Wally 的 会 面 交 流 ，Wally 提出 一 系列 业务 规则 和 需求 ， 
如 下 所 示 : 
e 客户 通过 连锁 分 店 提交 订单 。 
e Wally 希望 记录 顾客 的 如 下 信息 : 姓名 、 地 址 、 城 市 、 州 、 邮 政 编 码 、 电 话 、 出 生日 期 和 主要 
语言 。 
一 位 客户 可 以 提交 多 个 订单 。 
一 位 客户 随时 可 以 通过 不 同 的 连锁 分 店 提交 订单 。 
客户 可 能 有 0 个 或 多 个 账户 。 
需要 记录 账户 的 以 下 信息 : 余额 、 最 后 付款 日 期 、 最 后 支付 金额 和 类 型 。 
一 个 连锁 分 店 可 以 有 多 位 客户 。 
需要 记录 每 一 家 连锁 分 店 的 以 下 信息 : 分 店 编号 、 位 置 (地 址 、 城 市 、 州 、 邮 政 编码 ) 和 建筑 
面积 。 
一 家 连锁 分 店 可 以 出 售 所 有 商品 或 只 卖 部 分 商品 。 
订单 由 一 件 或 多 件 商 品 组 成 。 


e 每 一 张 订单 需要 记录 以 下 信息 : 
商品 由 一 家 或 多 家 分 店 出 售 。 


品 ) 和 边界 ( 23 号 商品 ) 组 成 。 
e Wally 雇用 了 56 名 员工 。 
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订单 日 期 和 信贷 授权 状态 。 


希望 记录 每 件 商品 的 如 下 信息 : 产品 说 明 、 颜 色 、 尺 寸 、 图 案 和 类 型 。 
一 件 商 品 可 以 由 多 件 商品 组 成 ; 例如 ,一 间 和 餐厅 的 壁纸 组 合 (20 号 商品 ) 可 由 墙纸 (22 号 商 


e 和 布 望 记录 员工 的 如 下 信息 : 姓名 、 地 址 〈 街 、 城 市 、 州 、 邮 政 编码 )、 电 话 号 码 、 雇 佣 日 期 、 头 


衔 、 薪 吹 、 技 能 和 年 龄 。 
。 每 名 员工 只 能 为 一 家 连锁 分 店 工作 。 


e 每 名 员工 有 一 名 或 多 名 家 属 ， 希 望 记录 家 属 的 姓名 、 年 龄 以 及 与 员工 的 联系 。 


e 员工 可 以 具备 一 项 或 多 项 技能 。 


根据 以 上 描述 绘制 E-R 模型 。 同 时 ， 用 你 在 本 课程 中 学 到 的 工具 为 这 些 描述 建立 一 个 数据 


模型 。 


27. Wally Los Gatos (参考 问题 与 练习 26 ) 发 现 他 经 营 的 壁纸 业务 中 有 一 些 不 明白 的 地 方 ， 他 决定 利 
用 晚上 时 间 继 续 攻 读 法 律 学 位 。 毕 业 后 ，Wally 与 Lyla EL Pajaro 合作 成 立 Peck and Paw 律师 事务 
所 。Wally 与 Lyla 聘请 你 设计 符合 以 下 业务 规则 的 数据 库 。 在 设计 数据 库 时 要 注意 保证 你 的 最 佳 


利益 ， 以 避免 不 必要 的 诉讼 。 
。 每 个 案件 中 律师 为 一 个 或 多 个 客户 服务 。 


在 以 下 规则 的 基础 上 绘制 实体 - 联系 图 : 


e 律师 的 属性 有 律师 编号 、 姓 名 、 地 址 、 城 市 、 州 、 邮 政 编 码 、 专 长 (可 能 不 止 一 个 ) 和 法 庭 


(可 能 不 止 一 个 )。 
e 每 起 案件 中 一 名 客户 可 以 有 多 名 律师 。 


e。 客户 的 属性 有 客户 编号 、 姓 名 、 地 址 、 城 市 、 州 、 邮 政 编 码 、 电 话 号 码 和 出 生日 期 。 


e 一 名 客户 可 能 涉及 多 起 案件 。 


。 案件 的 属性 有 案件 编写、 案件 描述 和 案件 类 型 。 


。 一 名 律师 可 能 会 同时 受理 多 起 案件 。 


e 每 起 案件 只 能 被 分 配 到 一 个 法 庭 进行 审理 。 


。 法 庭 的 属性 有 法 庭 编 号 、 法 庭 名 称 、 城 市 、 州 和 邮政 编码 。 


e 每 个 法 奋 有 一 名 或 多 名 法 官 。 


。 法 官 的 属性 有 法 官 编号 、 姓 名 和 从 业 时 间 。 


。 每 个 法 官 只 能 被 分 配给 一 个 法 庭 。 


陈述 你 根据 以 上 描述 做 出 的 所 有 假设 。 同 时 ， 用 本 课程 中 学 到 的 工具 为 这 些 描述 建立 一 个 数 


据 模型 。 
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学 习 目 标 
学 完 本 章 后 ， 读 者 应 该 能 够 : 
e 准确 地 定义 如 下 关键 术语 : 增强 型 实体 -联系 (EER) 模型 ， 子 类 型 ， 超 类 型 ， 属 性 
继承 ， 泛 化 ， 特 化 ， 完 全 性 约束 ， 全 部 特 化 法 则 ， 部 分 特 化 法 则 ， 分 离 性 约束 ， 分 离 
法 则 ， 重 和 到 法则， 子 类 型 鉴别 子 ， 超 类 型 / 子 类 型 层次 结构 ， 通 用 数据 模型 。 
懂得 何 时 在 数据 建 模 中 使 用 超 类 型 / 子 类 型 联系 。 

e 同时 使 用 特 化 和 泛 化 技术 来 定义 超 类 型 / 子 类 型 联系 。 

e 在 超 类 型 / 子 类 型 联系 的 建 模 中 说 明 完 整 性 约束 和 分 离 性 约束 。 

e 为 实际 业务 场景 开发 一 种 超 类 型 / 子 类 型 层次 结构 。 

。 解释 一 个 通用 的 (打包 的 ) 数据 模型 的 主要 特征 和 数据 建 模 架构 。 

e。 描述 使 用 打包 数据 模型 的 数据 建 模 工程 的 特定 特征 。 

引言 

第 2 章 介绍 的 基本 E-R 模型 在 20 世纪 70 年 代 中 期 被 提出 ， 它 非常 适合 为 常见 的 业务 
问题 建 模 ， 所 以 得 到 了 广泛 的 传播 。 然 而 此 后 业务 环境 急剧 改变 ， 业 务 联系 更 加 复杂 化 ， 这 
就 导致 业务 数据 也 更 加 复杂 。 人 例如， 组织 机 构 必 须 准 备 好 去 细 分 市 场 并 为 细 分 后 的 用 户 定制 
产品 ， 这 使 得 面向 组 织 机 构 的 数据 库 面临 更 大 的 需求 。 

为 了 更 好 地 应 对 这 些 变化 ， 研 究 员 和 咨询 顾问 们 一 直 致 力 于 加 强 E-R 模型 ， 使 其 能 在 当 
前 的 业务 环境 下 更 准确 地 表示 复杂 的 数据 结构 。 我 们 用 增强 型 实体 一 联系 ( EER Enhanced 
Entity-Relationship ) 模型 来 定义 这 种 从 原始 E-R 模型 扩展 而 来 的 新 的 模型 。 

超 类 型 / 子 类 型 联系 是 EER 模型 中 最 重要 的 建 模 结构 。 这 种 联系 使 我 们 能 表示 一 个 更 
泛 化 的 实体 类 型 ( 即 超 类 型 ，supertype)， 然 后 ， 再 把 它们 划分 为 多 个 特殊 化 的 实体 类 型 ( 即 
子 类 型 ，subtype)。 人 例如， 实体 类 型 CAR 自身 可 被 建 模 为 一 个 超 类 型 ， 其 子 类 型 有 SEDAN， 
SPORTS CAR，COUPE 等 。 每 一 个 子 类 型 从 它 的 超 类 型 继承 属性 ， 此 外 它 本 身 还 包含 特 
丈 的 属性 。 为 建 模 超 类 型 / 子 类 型 联系 而 增加 的 新 的 符号 极 大 提高 了 基本 E-R 模型 的 灵 

正如 第 2 章 所 介绍 的 那样 ， 通 用 的 和 特定 行业 的 泛 化 数据 模型 因 其 极 大 地 利用 了 EER 
模型 的 能 力 ， 所 以 对 于 当代 数据 建 模 工程 师 极 甚 重要。 这些 打包 的 数据 模型 和 数据 模型 模式 
使 数据 建 模 师 更 加 高 效 并 能 产生 出 更 高 质量 的 数据 模型 。 超 类 型 / 子 类 型 的 EER 特征 对 于 
创建 泛 化 的 数据 模型 很 必要 ， 额 外 的 泛 化 结构 (例如 类 型 化 实体 和 联系 ) 也 会 被 运用 。 对 于 
一 个 数据 建 模 师 来 说 ， 懂 得 如 何 去 定 制 一 个 数据 模型 模式 或 者 一 个 针对 主流 软件 包 的 数据 模 
型 (例如 企业 资源 规划 或 客户 关系 管理 ) 非常 重要 ， 正 如 对 于 信息 系统 设计 者 而 言 定制 现成 
的 软件 包 和 软件 组 件 是 很 常见 的 情况 。 
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3.1 超 类 型 和 子 类 型 的 表示 


回忆 第 2 章 ， 实 体 类 型 是 指 所 有 共享 共同 的 性 质 或 特征 的 实体 的 集合 。 尽 管 包含 同样 的 
实体 类 型 的 实体 实例 是 相似 的 ， 但 并 不 期 望 它 们 有 着 完全 相同 的 属性 。 例 如 ， 回 忆 第 2 章 
介绍 的 必要 属性 和 可 选 属性 。 数 据 建 模 中 的 一 个 主要 挑战 是 识别 并 清晰 地 表示 几乎 相同 的 实 
体 ， 即 那些 共享 公共 性 质 同时 又 各 自 有 一 些 独 有 却 值 得 关注 的 性 质 的 实体 类 型 。 

因此 ， 人 们 扩展 E-R 模型 ， 使 其 包含 超 类 型 / 子 类 型 联系 。 子 类 型 是 指 在 某 个 实体 类 
型 中 对 那些 对 组 织 有 意义 的 实体 进行 分 组 。 例 如 ，STUDENT 是 一 个 大 学 里 的 实体 类 型 。 
STUDENT 的 两 种 子 类 型 是 GRADUATE STUDENT 和 UNDERGRADUATE STUDENT。 在 这 个 
例子 中 ， 把 STUDENT 作为 超 类 型 。 超 类 型 是 指 与 一 个 或 多 个 子 类 型 有 联系 的 一 般 实体 类 型 。 

在 目前 讨论 到 的 E-R 图 中 ， 超 类 型 和 子 类 型 都 是 隐藏 的 。 例 如 ， 重 新 观察 图 2-21， 这 
是 一 个 表示 Pine Valley 家 具 公 司 的 E-R 图 (用 Microsoft Visio 制作 )。 注 意 一 个 客户 有 可 能 
不 在 任何 一 个 销售 区 域 购买 产品 ( 即 没 有 DOES BUSINESS IN 关联 实体 的 关联 实例 )。 为 什 
么 会 出 现 这 种 情况 ?一 个 可 能 的 原因 是 有 两 种 类 型 的 客户 : 全 国 性 大 客户 和 普通 常客 ， 而 只 
有 普通 常客 才 会 被 指定 一 个 销售 区 域 。 因 此 ， 我 们 无 法 知晓 图 中 CUSTOMER 实体 与 DOES 
BUSINESS IN 关联 实体 的 联系 是 可 选 基数 的 原因 。 显 式 地 画 出 一 个 客户 实体 超 类 型 和 一 些 
实体 子 类 型 能 使 E-R 图 更 加 清晰 。 本 章 后 面 我 们 会 介绍 一 种 修改 过 的 Pine Valley 家 具 公 司 
的 E-R 图 ， 通 过 展示 一 些 EER 符号 使 得 图 2-21 中 模糊 的 概念 得 到 澄清 。 


3.1.1 基本 概念 和 符号 


图 3-1a 显示 了 本 书 中 用 于 表示 超 类 型 / 子 类 型 联系 的 符号 。 超 类 型 用 线 连接 到 一 个 圆 
上 ， 这 个 圆 接着 连接 到 每 个 定义 的 子 类 型 上 。 每 条 从 子 类 型 连接 到 圆 的 线 上 的 TU 形 符号 强 
调 了 子 类 型 是 超 类 型 的 子 集 ， 它 同时 表明 了 子 类 型 / 超 类 型 联系 的 方 回 。( 这 个 癌 形 符号 是 
可 选 的 ， 因 为 超 类 型 / 子 类 型 联系 的 意义 和 方向 都 是 显而易见 的 ; 在 大 多 数 例子 中 不 会 使 
用 这 个 符号 。) 图 3-lb 展示 了 Microsoft Visio 中 的 EER 使 用 的 EER 符号 类 型 (和 本 书 描述 
非常 相似 )， 图 3-1c 展示 的 则 是 被 一 些 CASE 工具 (例如 Oracle Designer) 使 用 的 EER ; 图 
3-1c 中 的 符号 也 是 在 通用 和 特定 行业 数据 模型 中 常常 使 用 的 一 种 形式 。 这 些 不 同 的 符号 形式 
有 着 基本 相同 的 特性 ， 你 会 很 容易 适应 任何 一 种 表示 形式 。 我 们 主要 使 用 文本 符号 作为 本 章 
的 例子 ， 因 为 这 种 形式 更 符合 高 级 EER 特性 的 标准 。 
被 所 有 实体 共享 的 属性 (包括 标识 符 ) 均 会 和 超 类 型 相关 联 ， 而 一 个 子 类 型 独 有 的 属性 
则 只 会 和 这 个 子 类 型 关联 ， 对 于 联系 也 是 同样 如 此 。 本 章 剩 下 的 部 分 将 加 入 一 些 其 他 的 元 素 
到 符号 中 ， 这 些 元 素 会 为 超 类 型 / 子 类 型 联系 提供 额外 的 含义 。 
1. 超 类 型 / 子 类 型 联系 的 例子 
用 一 个 简单 但 常见 的 例子 来 阐述 超 类 型 / 子 类 型 联系 。 假 设 一 个 公司 有 三 种 基本 类 型 的 
员工 : 时 薪 员 工 、 年 薪 员 工 和 合同 员工 。 下 面 是 他 们 的 一 些 重 要 属性 : 
e 时 薪 员 工 : Employee Number (员工 号 )，Employee Name (姓名 )，Address (地 址 )， 
Date Hired (雇佣 日 期 )，Hourly Rate〈 时 薪 ) 
e 年 薪 员 工 : Employee Number (员工 号 )，Employee Name (姓名 )，Address (地 址 )， 
Date Hired (雇佣 日 期 )，Annual Salary ( 年薪)，Stock Option (股票 期 权 ) 
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所 有 实例 均 可 参与 的 联系 
SUPERTYPE 


所 有 实体 共享 的 一 般 实体 
属性 (包括 标识 符 ) 








只 有 特 化 后 的 实体 才 可 
以 参与 的 联系 





SUPERTYPE 











只 有 特 化 后 的 实体 才 可 
以 参与 的 联系 


SUBTYRE 1 
| 子 类 型 1 独 有 的 属性 


b) 微软 Visio 符号 









所 有 实例 均 可 参与 的 联系 


SUPERTYPE 
标识 符 
共享 属性 


SUBTYPE 1 
子 类 型 1 独 有 的 属性 
SUBTYPE 2 
子 类 型 2 独 有 的 属性 


c) 在 超 类 型 中 的 子 类 型 符号 
图 3-1 超 类 型 / 子 类 型 联系 的 基本 符号 












| 超 类 型 的 特 化 版 本 





只 有 特 化 后 的 实体 才 可 以 参与 
的 联系 


e 合同 员工 : Employee Number (员工 号 )，Employee Name (姓名 )，Address (地 址 )， 
Date Hired (雇佣 日 期 )，Contract Number (合同 号 )，Billing Rate (合同 薪水 ) 
值得 注意 的 是 ， 这 些 员工 类 型 有 一 些 共同 的 属性 : Employee Number，Employee Name， 
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Address，Date Hired。 此 外 ， 每 一 类 型 都 有 一 个 或 者 多 个 其 他 类 型 没有 的 属性 (例如 Hourly 
Rate 是 时 薪 员 工 独 有 的 属性 )。 如 果 和 布 望 为 这 种 情形 设计 一 种 概念 数据 模型 ， 可 以 有 下 面 三 
种 选择 : 

1 ) 定义 一 个 单独 的 实体 类 型 EMPLOYEE。 尽 管 这 种 方法 从 概念 上 来 说 非常 简单 ， 但 是 
有 一 个 缺点 是 EMPLOYEE 实体 必须 包括 三 种 员工 类 型 的 所 有 属性 。 例 如 对 一 个 时 薪 员 工 的 
实例 ， 其 类 似 于 Annual Salary 和 Contract Number 这 样 的 属性 便 不 会 被 使 用 (可 选 属性 ) 或 
者 被 设 为 空 值 。 在 一 个 开发 环境 中 ， 由 于 需要 应 对 各 种 变化 ， 因 此 使 用 这 种 实体 类 型 的 程序 
会 极度 复杂 。 

2 ) 为 每 一 种 实体 定义 一 种 单独 的 实体 类 型 。 这 种 方法 的 缺点 是 无 法 利用 员工 类 型 中 的 
公共 属性 ， 用 户 在 使 用 该 系统 过 程 中 ， 要 非常 小 心地 选择 正确 的 实体 类 型 。 

3 ) 定义 一 个 超 类 型 EMPLOYEE 和 相应 的 子 类 型 HOURLY EMPLOYEE 、SALARIED 
EMPLOYEE 和 CONSULTANT。 这 种 方法 不 仅 能 处 理 所 有 员工 的 公共 属性 ， 也 可 以 识别 每 
一 种 类 型 独 有 的 属性 。 

图 3-2 是 使 用 增强 型 E-R 模型 定义 的 EMPLOYEE 超 类 型 和 其 三 个 子 类 型 的 表示 。 所 有 
员工 共享 的 属性 均 与 EMPLOYEE 实体 类 型 相关 联 ， 而 每 个 子 类 型 独 有 的 属性 则 仅仅 包含 在 
该 子 类 型 当中 。 

2. 属性 继承 

每 一 个 子 类 型 都 是 一 个 独立 的 实体 类 型 。 一 个 子 类 型 的 实体 实例 同时 是 其 超 类 型 的 一 个 
实体 实例 。 例 如 ， 如 果 “Therese Jones” 是 一 个 CONSULTANT 子 类 型 的 实例 ， 则 他 同时 也 
是 EMPLOYEE 超 类 型 的 一 个 实例 。 因 此 ， 一 个 子 类 型 的 实体 不 仅 拥有 它 目 身 的 特有 属性 的 
值 ， 还 有 相应 的 超 类 型 的 属性 的 值 ， 包 括 标识 符 。 

属性 继承 (attribute inheritance) 是 指 子 类 型 实体 会 继承 相应 的 超 类 型 的 所 有 属性 值 和 所 
有 联系 的 实例 。 这 种 重要 性 质 不 需要 重复 
地 在 每 一 种 子 类 型 中 元 余地 包含 超 类 型 的 
属性 或 联系 ( 记 住 ， 在 数据 建 模 中 ， 苑 余 
性 是 不 好 的 ， 而 简约 性 是 好 的 )。 例 如 ， 
Employee Name 是 EMPLOYEE 的 一 个 属 
性 (图 3-2), 但 并 不 是 EMPLOYEE 的 子 
类 型 的 属性 。 因 此 ， 一 个 名 为 “Therese 
Jones” 的 员工 的 员工 姓名 事实 上 是 继承 于 
EMPLOYEE 超 类 型 ， 而 他 的 Billing Rate 
却 是 子 类 型 CONSULTANT 的 一 个 属性 。 

我 们 已 经 确认 一 个 子 类 型 的 成 员 一 
定 是 其 超 类 型 的 成 员 。 那 么 反 过 来 是 否 图 3-2 员工 超 类 型 及 其 三 种 于 大 型 
成 立 一 一 一 个 超 类 型 的 成 员 是 否 也 是 其 中 一 个 或 者 多 个 子 类 型 的 成 员 ? 这 个 问题 的 答案 可 能 
为 “是 ”， 也 可 能 为 “不 是 ”， 这 取决 于 其 业务 场景 。( 当 然 ,“ 看 情况 而 定 ” 是 一 个 典型 的 学 
术 回 答 ， 不 过 对 于 这 个 例子 是 正确 的 。) 本 章 将 会 讨论 更 丰富 的 一 些 可 能 性 。 

3. 何 时 使 用 超 类 型 / 子 类 型 联系 

那么 ， 如 何 知道 何 时 该 使 用 超 类 型 / 子 类 型 联系 呢 ? 当 出 现 以 下 两 种 情况 中 的 至 少 一 种 










EMPLOYEE 





Employee Number 
Employee Name 
Address 
Date Hired 



















HOURLY 
EMPLOYEE 


SALARIED 
EMPLOYEE 


CONSULTANT 






Contract Number 
Billing Rate 









Hourly Rate Annual Salary 


Stock Option 
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时 ， 就 可 以 考虑 使 用 子 类 型 了 : 

1) 有 属性 应 用 到 该 实体 类 型 的 一 部 分 (但 不 是 全 部 ) 实例 中 。 例 如 ， 图 3-2 中 的 
EMPLOYEE 实体 类 型 。 

2 ) 参与 到 一 些 联系 的 子 类 型 实例 对 子 类 型 独 有 。 

图 3-3 是 一 个 同时 包含 了 上 述 两 种 情形 的 使 用 子 类 型 联系 的 例子 。 医 院 实体 类 型 
PATIENT (患者 ) 有 两 个 子 类 型 : OUTPATIENT (门诊 患者 ) 和 RESIDENT PATIENT (住院 
者 )。( 标 识 符 为 Patient ID。) 所 有 患者 都 有 Admit Date 属性 和 Patient Name 属性 。 同 时 ， 每 
一 位 患者 都 由 一 个 RESPONSIBLE PHYSICIAN (主治 医生 ) 照顾 并 为 其 设计 治疗 方案 。 


所 有 患者 都 具有 的 联系 


RESPONSIBLE 
Is Cared For PHYSICIAN 






PATIENT 


Patient ID 
Patient Name 
Admit Date 


入 特定 类 型 患者 具有 的 联系 
RESIDENT BED 


Is Assigned 
~ Bed ID 











Physician ID 


所 有 患者 都 具有 的 
属性 










OUTPATIENT 
Checkback Date PATIENT 


Date Discharged 
特定 类 型 患者 具有 的 属性 


图 3-3 ”医院 中 的 超 类 型 / 子 类 型 联系 


每 一 个 子 类 型 都 有 一 个 独 有 的 属性 。 门 诊 患 者 的 独 有 属性 是 Checkback Date， 而 住院 患 
者 的 独 有 属性 是 Date Discharged。 同 时 ,住院 患 者 有 一 个 独 有 的 联系 是 每 个 患者 都 会 被 指定 
一 个 床位 。( 注 意 这 是 一 个 强制 的 联系 ， 如 果 它 附加 到 PATIENT 上 ， 则 是 一 个 可 选 的 关系 。) 
每 一 个 床位 可 能 被 分 配 或 不 分 配给 一 个 患者 。 

之 前 曾经 讨论 过 属性 继承 的 特性 。 因 此 ， 每 一 个 门诊 患者 和 住院 患者 都 会 继承 其 超 类 型 
PATIENT 的 所 有 属性 : Patient ID、Patient Name 和 Admit Date。 图 3-3 同时 也 阐述 了 联系 
继承 的 基本 原理 。OUTPATIENT 和 RESIDENT PATIENT 均 是 PATIENT 的 实例 ， 因 此 他 们 
都 通过 Is Cared For 属性 与 RESPONSIBLE PHYSICIAN 相关 联 。 


3.1.2” 特 化 和 泛 化 表示 


上 面 已 经 阐述 了 超 类 型 / 子 类 型 联系 的 基本 原理 ， 包 括 一 个 “好 ”的 子 类 型 的 特点 。 但 
是 在 开发 实际 的 数据 模型 中 ， 如 何 能 够 把 握 时 机 去 建立 和 开发 这 些 联系 ? 泛 化 和 特 化 这 两 个 
过 程 常 用 来 作为 开发 超 类 型 / 子 类 型 联系 的 心智 模型 。 

1. 泛 化 


人 类 智能 一 个 独 有 的 方面 就 是 具有 对 物体 和 经 历 进行 分 类 并 泛 化 它们 的 性 质 的 能 力 。 在 
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数据 建 模 中 ， 泛 化 ( Generalization) 是 指 从 一 个 特 化 的 实体 类 型 的 集合 中 定义 一 个 更 加 通用 
的 实体 类 型 的 过 程 。 因 此 ， 泛 化 是 一 个 自 底 向 上 的 过 程 。 

图 3-4 是 汉化 的 一 个 例子 。 在 图 3-4a 中 ， 三 个 实体 类 型 被 定义 : CAR (汽车 )、TRUCK 
(卡车 ) 和 MOTORCYCLE (摩托 车 )。 在 这 一 步 中 ， 数 据 建 模 师 往往 先 在 E-R 图 中 单独 地 表 
示 它 们 。 通 过 进一步 的 观察 ， 我 们 发 现 这 三 种 实体 类 型 有 很 多 共同 的 属性 : Vehicle ID (标识 
符 )、Vehicle Name (由 Make 和 Model 组 成 )、Price 和 Engine Displacement。 这 个 事实 ( 尤 
其 是 具有 相同 的 标识 符 ) 暗示 着 这 三 种 实体 类 型 其 实 属于 一 个 更 通用 的 实体 类 型 。 

图 3-4b 展示 了 更 通用 的 实体 类 型 (VEHICLE (车 辆 )) 和 相应 的 超 类 型 / 子 类 型 联系 。 
实体 CAR 有 一 个 特有 属性 No Of Passengers， 而 TRUCK 有 两 个 特有 属性 : Capacity 和 Cab 
Type。 因 此 , 泛 化 能 够 按照 实体 类 型 的 共同 属性 将 它们 聚合 在 一 起 ， 同 时 也 能 保留 每 一 种 子 
类 型 的 特有 属性 。 


CAR TRUCK MOTORCYCLE 


Vehicle ID 
Price 
Engine Displacement 


Vehicle ID Vehicle ID 
Price Price 
Engine Displacement Engine Displacement 


Vehicle Name 
(Make, Model) 
No Of Passengers 


Vehicle Name Vehicle Name 
(Make, Model) (Make, Model) 

Capacity 

Cab Type 


a) 三 种 实体 类 型 CAR、TRUCK 和 MOTORCYCLE 








VEHICLE 


Vehicle ID 
Price 
Engine Displacement 
Vehicle Name 
(Make, Model) 










各 种 类 型 的 车 辆 ， 包 括 没 
有 任何 特有 属性 和 联系 的 摩 
托 车 














CAR 





TRUCK 









No Of Passengers Capacity 


Cab Type 


b) 泛 化 为 VEHICLE 超 类 型 
图 3-4 泛 化 的 例子 


请 注意 实体 类 型 MOTORCYCLE 并 没有 包含 在 此 联系 当中 。 这 仅仅 是 一 个 朴 洗 吗 ? 不 
是 ， 相 反 它 是 被 故意 不 包含 进去 的 ， 因 为 它 不 满足 之 前 讨论 的 子 类 型 的 条 件 。 比 较 图 3-4 的 
a 和 两 部 分 ， 你 会 发 现 MONTORCYCLE 的 所 有 属性 被 所 有 车 辆 类 型 所 共有 ， 换 名 话说 即 
没有 属于 摩托 车 的 独 有 属性 。 不 仅 如 此 ，MOTORCYCLE 也 没有 与 其 他 实体 类 型 的 联系 。 因 
此 ， 没 有 必要 建立 一 个 MOTORCYCLE 子 类 型 。 

没有 MOTORCYCLE 子 类 型 的 事实 表明 VEHICLE 的 某 个 实例 可 能 不 是 任何 一 个 其 子 
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类 型 的 成 员 。 这 种 类 型 的 约束 将 在 3.2 节 讨 论 。 

2. 特 化 

如 上 所 示 ， 泛 化 是 一 个 自 底 向 上 的 过 程 。 而 特 化 (Specialization ) 是 一 个 自 顶 向 下 的 过 
程 ， 和 泛 化 刚好 相反 。 假 设 定义 了 一 个 实体 类 型 及 它 的 所 有 属性 ， 特 化 是 指 给 超 类 型 定义 一 
个 或 者 多 个 子 类 型 并 建立 超 类 型 / 子 类 型 联系 的 过 程 。 每 一 个 子 类 型 都 是 基于 一 些 有 区 别 性 
的 特征 而 创建 ， 例 如 子 类 型 独 有 的 属性 和 联系 。 

图 3-5 是 一 个 特 化 的 例子 。 图 3-5a 展示 了 一 个 名 为 PART (部 件 ) 的 实体 类 型 和 它 的 
一 些 属性 。 它 的 标识 符 是 Part No， 其 他 属性 有 Description、Unit Price、Location、Qty On 
Hand、Routing Number 和 Supplier (最 后 一 个 属性 是 多 值 或 者 复合 的 ， 因 为 一 个 部 件 可 能 和 
超过 一 个 供应 商 有 关联 的 单价 )。 


PART 


Part No 
Description 
Qty On Hand 


Location 
Routing Number 
{Supplier 

(Supplier ID, Unit Price)} 





a) 实体 类 型 PART 


PART 


Part No 
Description 
Location 

Qty On Hand 


SUPPLIER 
Supplier ID 








仅 与 Purchased Parts 相关 联 
的 实体 类 型 、 属 性 和 联系 











MANUFACTURED 
PART 


PURCHASED 
PART 


SUPPLIES 






Unit Price 





Routing Number 


b) 特 化 为 MANUFACTURED PART 和 PURCHASED PART 
图 3-5 特 化 的 例子 


在 与 用 户 的 讨论 中 ， 发 现 有 两 种 可 能 的 部 件 的 来 源 。 一 些 是 工厂 内 部 制造 出 来 的 ， 另 一 
些 则 是 从 外 部 供应 商 那里 购买 而 来 。 进 一 步 ， 发 现 一 批 部 件 可 能 同时 来 源 于 两 种 渠道 。 这 种 
情况 下 来 源 的 选择 可 能 取决 于 工厂 的 制造 能 力 和 部 件 的 单价 等 多 个 因素 。 

在 图 3-5a 中 ， 一 些 属性 应 用 于 所 有 部 件 ， 无 论 部 件 的 来 源 是 什么 。 然 而 有 一 些 属性 还 
是 取决 于 来 源 。Routing Number 只 适用 于 直接 制造 的 部 件 ， 而 Supplier Id 和 Unit Price 只 适 
用 于 购买 来 的 部 件 。 这 些 因素 表明 实体 类 型 PART 应 当 被 特 化 为 子 类 型 MANUFACTURED 
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PART (直接 制造 的 部 件 ) 和 PURCHASED PART (购买 的 部 件 )( 图 3-5b)。 

在 图 3-5b 中 ，Routing Number 是 和 MANUFACTURED PART 相关 联 的 。 数 据 建 模 师 起 
初 计 划 将 属性 Supplier ID 和 Unit Price 与 PURCHASED PART 结合 起 来 。 而 在 进一步 与 用 户 
的 讨论 当中 ， 数 据 建 模 师 建议 创建 一 个 新 的 SUPPLIER (供应 商 ) 实体 类 型 ， 再 创建 一 个 关 
联 实 体 连接 PURCHASED PART 和 SUPPLIER。 这 个 关联 实体 (在 图 3-5b 中 名 为 SUPPLIES 
(供应 )) 允许 用 户 更 加 灵活 地 关联 购买 的 部 件 和 它们 的 供应 商 。 注 意 属性 Unit Price 现在 已 
经 在 关联 实体 中 ， 因 此 一 个 部 件 的 单价 在 不 同 的 供应 商 之 间 可 能 各 有 不 同 。 在 这 个 例子 中 ， 
特 化 提供 了 对 这 个 问题 的 一 种 更 好 的 表达 方式 。 

3. 结合 特 化 和 泛 化 

特 化 和 泛 化 对 于 开发 超 类 型 / 子 类 型 联系 都 是 非常 有 价值 的 技术 。 在 某 个 特定 时 间 点 所 
使 用 的 技术 取决 于 很 多 因素 ， 比 如 问题 域 的 本 质 、 之 前 的 建 模 效 果 其 至 个 人 偏好 等 。 你 应 该 
根据 这 些 因 素 的 指示 ， 准备 好 同时 利用 这 两 种 方法 并 来 回 地 交替 切换 。 


3.2 在 超 类 型 / 子 类 型 联系 中 声明 约束 


目前 为 止 已 经 讨论 了 超 类 型 / 子 类 型 联系 的 基本 概念 并 介绍 了 一 些 表示 这 些 概念 的 基本 
符号 ， 还 描述 了 泛 化 和 特 化 的 过 程 ， 数 据 建 模 师 可 利用 这 些 联系 识别 机 会 。 在 这 一 节 中 ， 额 
外 介绍 一 些 表示 超 类 型 / 子 类 型 联系 中 约束 的 符号 。 这 些 约束 能 捕捉 到 这 些 联系 中 一 些 重 
要 的 业务 规则 。 本 节 将 介绍 两 种 最 重要 的 约束 类 型 : 完全 性 约束 和 分 离 性 约束 ( Elmasri 和 
Navathe, 1994 ) 。 


3.2.1 声明 完全 性 约束 


完全 性 约束 ( completeness constraint) 主要 是 针对 一 个 超 类 型 的 实例 是 否 一 定 是 至 少 一 
个 子 类 型 的 实例 的 问题 。 完 全 性 约束 有 两 个 可 行 的 法 则 : 全 部 特 化 法 则 ( total specialization 
rule) 和 部 分 特 化 法 则 ( partial specialization rule)。 全 部 特 化 法 则 指 每 一 个 超 类 型 的 实例 都 
必须 是 其 子 类 型 的 一 个 实例 。 部 分 特 化 法 则 指 一 个 超 类 型 的 实例 可 以 被 允许 不 属于 任何 子 类 
型 。 我 们 用 之 前 的 例子 介绍 这 两 种 法 则 ， 如 图 3-6 所 示 。 

1. 全 部 特 化 法 则 

图 3-6a 中 重复 了 图 3-3 中 PATIENT 的 例子 并 且 引 入 了 全 部 特 化 的 符号 。 在 这 个 例子 
中 ， 业 务 规则 是 这 样 的 : 一 个 患者 必须 是 一 个 门诊 患者 或 一 个 住院 患者 (在 这 个 医院 中 没 
有 其 他 类 型 的 病人 )。 全 部 特 化 表示 为 一 条 从 PATIENT 实体 类 型 延伸 至 圆圈 的 双 线 。( 在 
Microsoft Visio 的 符号 中 ， 全 部 特 化 被 称 为 “类 别 是 完整 的 "， 并 且 在 超 类 型 和 关联 子 类 型 
之 间 的 类 别 圆 圈 下 画 一 条 双 线 。) 

在 这 个 例子 中 ， 每 次 插入 一 个 新 的 PATIENT 实例 到 超 类 型 中 时 ， 相 关 的 实例 同时 
也 会 被 插入 到 OUTPATIENT 或 者 RESIDENT PATIENT 中 。 而 如 果 一 个 实例 被 插入 到 
RESIDENT PATIENT 中 时 ， 一 个 联系 实例 Is Assigned 会 被 创建 ， 用 来 指派 病人 到 相应 的 医 
院 床 位 上 。 

2. 部 分 特 化 法 则 

图 3-6b 重复 了 图 3-4 的 VEHICLE 和 其 子 类 型 CAR 与 TRUCK 的 例子 。 回 忆 一 下 这 个 
例子 中 ， 摩 托 车 是 车 辆 的 一 种 ， 但 是 它 在 数据 模型 中 并 不 被 表现 为 一 个 子 类 型 。 因 此 ， 如 果 
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一 辆 车 是 汽车 ， 它 会 以 CAR 的 实例 形式 出 现 ; 如 果 它 是 一 辆 卡车 ， 它 会 以 TRUCK 的 实例 
形式 出 现 ; 然而 如 果 它 是 一 辆 摩托 车 ， 则 它 不 会 出 现在 任何 子 类 型 的 实例 中 。 这 就 是 部 分 特 
化 的 一 个 例子 ， 部 分 特 化 由 超 类 型 VEHICLE 到 圆圈 的 一 条 单线 所 指定 。 


PATIENT RESPONSIBLE 


Is Cared For 
Patient ID DS FHYSIGIAN 


Patient Name Physician ID 





Admit Date 









全 部 特 化 : 一 个 患者 只 
是 一 个 门诊 患者 或 者 一 个 住 
院 患者 





OUTPATIENT RESIDENT BED 


Is Assigned 
Checkback Date RE 全 Bed ID 





Date Discharged 
a) 全 部 特 化 法 则 
















VEHICLE 


Vehicle iD 
Price 
Engine Displacement 
Vehicle Name 
(Make, Model) 





部 分 特 化 : 一 个 车 辆 可 以 是 一 
个 汽车 或 是 一 个 卡车 ， 但 不 能 同 
时 是 两 者 





CAR TRUCK 





No Of Passengers Capacity 


Cab Type 


b) 部 分 特 化 法 则 
图 3-6 完全 性 约束 的 例子 


3.2.2 声明 分 离 性 约束 


分 离 性 约束 (disjointness constraint) 主要 针对 一 个 超 类 型 的 实例 是 否 可 以 同时 是 两 个 或 
更 多 子 类 型 实例 的 问题 。 分 离 性 约束 有 两 个 可 行 的 法 则 : 分 离 法 则 (disjoint rule) 和 重合 法 
则 (overlap rule )。 分 离 法 则 规定 如 果 一 个 〈 超 类 型 的 ) 实体 实例 是 某 个 子 类 型 的 成 员 ， 那 么 
它 就 不 能 同时 再 成 为 其 他 子 类 型 的 成 员 。 重 有 苍 法 则 规定 一 个 实体 实例 可 以 同时 成 为 两 个 (或 
者 更 多 ) 子 类 型 的 成 员 。 图 3-7 是 上 述 这 两 种 法 则 的 一 个 例子 。 

1. 分 离 法 则 

图 3-7a 展示 了 图 3-6a 中 PATIENT 的 例子 。 这 种 情况 下 的 业务 规则 如 下 : 在 任何 时 候 ， 
患者 必须 或 者 是 一 个 门诊 患者 或 者 是 一 个 住院 患者 ， 但 他 不 能 同时 是 两 种 患者 类 型 。 这 就 是 
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分 离 法 则 ， 通 过 连接 超 类 型 和 子 类 型 的 圆圈 上 的 字母 d 来 表示 。 注 意 在 这 个 图 中 ，PATIENT 
的 子 类 可 能 会 随时 间 改 变 ， 但 是 在 某 一 个 给 定 的 时 刻 ，PATIENT 只 能 是 其 中 一 种 类 型 。 
(Microsoft Visio 的 符号 中 并 没有 办 法 去 指定 分 离 法 则 或 重 和 到 法则， 不 过 可 以 使 用 Text 工具 
在 类 别 圆圈 上 加 上 一 个 d 或 者 o。) 

2. 重 仅 法 则 

图 3-7b 展示 了 实体 类 型 PART 和 它 的 两 个 子 类 型 MANUFACTURED PART 和 PURCHASED 
PART (图 3-5b)。 回 忆 一 下 对 这 个 例子 的 讨论 ， 一 批 部 件 可 以 同时 来 源 于 工厂 直接 制造 和 
从 零售 商 购买 。 需 要 对 上 面 这 人 句 话 做 一 个 说 明 。 在 这 个 例子 中 ，PART 的 实例 是 一 个 部 件 号 
( 即 一 种 部 件 类 型 )， 而 不 是 一 个 单独 的 部 件 〈 由 Part No 标识 符 指 定 )。 例 如 ， 考虑 部 件 号 
4000， 在 某 个 特定 的 时 间 ， 手头 这 种 部 件 的 数量 可 能 为 250， 其 中 100 个 是 直接 制造 的 ， 剩 
下 的 150 个 是 购买 的 零件 。 在 这 种 情况 下 ， 记 录 单 个 部 件 的 信息 并 不 重要 。 当 需要 记录 单个 
的 部 件 时 ， 每 一 个 部 件 都 会 被 单独 指定 一 个 序列 号 标识 符 ， 而 库存 数量 这 个 属性 值 则 只 能 为 
1 或 者 0， 这 取决 于 这 个 部 件 是 否 存在 。 


RESPONSIBLE 
ls Cared For PHYSICIAN 


Patient 1D ~ 
Physician ID 


PATIENT 


Patient Name BE ™ 
Admit Date 













分 离 法 则 : 一 个 Patient 可 以 是 一 个 
Outpatient 或 者 一 个 Resident Patient， 但 
不 能 两 者 丝 是 





OUTPATIENT RESIDENT BED 


ls Assigned 
Checkback Date PATIENT ~ Bed ID 


Date Discharged 一 
a) 分 离 法 则 


PART 


Part No 
Description 
Location 





SUPPLIER 
Supplier ID 


Qty On Hand 





重生 法则: 一 个 Part 可 能 同时 是 
一 个 Manufactured Part 和 一 个 Purchased 
Part， 但 它 必须 至 少 是 两 者 之 一 ， 这 







取决 于 全 部 特 化 ( 双 线 ) 9) 
(D 
人 小 
MANUFACTURED PURCHASED SUPPLIES 
PART PART A Unit Price 
Routing Number 本 
b) 重合 法 则 


图 3-7 分 离 性 约束 的 例子 
重 又 法 则 被 表示 为 在 圆圈 上 放置 一 个 字母 o， 如 图 3-7b 所 示 。 注 意 在 这 个 图 中 全 部 特 化 
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法 则 也 被 指定 了 ， 由 双 线 可 以 看 出 。 因 此 ， 任 何 一 批 部 件 都 必须 是 被 购买 的 部 件 或 者 被 制造 
的 部 件 ， 也 可 以 两 者 兼 而 有 之 。 


3.2.3 ”定义 子 类 型 鉴别 子 


给 定 一 个 超 类 型 / 子 类 型 联系 ， 考 虑 插入 一 个 新 的 超 类 型 实例 的 问题 ， 这 个 实例 该 插 
入 哪个 子 类 型 里 ? 前 面 已 经 讨论 了 可 应 用 到 这 种 场景 中 的 各 种 法 则 ， 如 果 某 一 种 是 可 行 
的 话 ， 则 需要 一 种 简单 的 机 制 去 实现 这 些 法 则 。 通 常 可 使 用 一 个 子 类 型 鉴别 子 ( subtype 
discriminator) 来 完成 这 个 任务 。 子 类 型 鉴别 子 是 一 个 超 类 型 的 属性 ， 其 属性 值 决 定 了 目标 
子 类 型 或 子 类 型 集 。 

1. 分 离子 类 型 

图 3-8 是 一 个 使 用 子 类 型 鉴别 子 的 例子 ， 它 源 于 图 3-2 中 介绍 的 EMPLOYEE 超 类 型 和 
其 子 类 型 的 例子 。 注 意 该 图 中 已 加 入 了 下 面 的 约束 : 完全 特 化 和 分 离子 类 型 。 因 此 ， 每 一 个 
员工 都 必须 或 是 一 个 时 薪 ， 或 年 薪 ， 或 合同 员工 。 









EMPLOYEE 


Employee Number 
Employee Name 


Address 
Date Hired 
Employee Type 













具有 不 同 的 分 离子 类 型 
值 H、S 或 C 的 子 类 型 鉴 
别 子 


| Employee Type= 


‘6 H 区 (a ) 机 二 


SG” 


HOURLY SALARIED 
EMPLOYEE EMPLOYEE 


CONSULTANT 


Contract Number 


Hourly Rate Annual Salary 
Stock Option 


Billing Rate 





图 3-8” 子 类 型 鉴别 子 的 介绍 (分 离 法 则 ) 


一 个 新 的 属性 ( Employee Type) 已 经 被 加 入 超 类 型 中 作为 子 类 型 鉴别 子 。 当 一 个 新 的 
员工 被 加 入 该 超 类 型 时 ， 这 个 属性 会 被 编码 为 下 面 三 个 值 之 一 :“H”( 时 薪 员 工 ),“S”( 年 
薪 员 工 ) 或 者 “C”( 合 同 员工 )。 根 据 这 个 编码 ， 该 实例 能 被 指派 到 合适 的 子 类 型 中 。( 在 
Microsoft Visio 的 符号 中 ， 一 个 超 类 型 的 属性 也 可 被 选 为 一 个 鉴别 子 ， 与 类 别 符号 的 表示 非 
党 接近 。) 

用 来 表示 子 类 型 鉴别 子 的 符号 也 展示 在 图 3-8 中 。 表 达 式 Employee Type= (在 条 件 语 
句 的 左边 ) 被 放置 在 连接 超 类 型 到 圆圈 的 线 的 旁边 。 选 择 合适 子 类 型 的 属性 值 (在 这 个 例 
子 中 是 “了 下”“S$” 或 者 “C7”) 被 放置 在 指向 该 子 类 型 的 线条 的 劳 边 。 例 如 ，Employee 
Type="S" 将 导致 实例 被 插入 到 SALARIED EMPLOYEE 子 类 型 中 。 

2. 重 垩 子 类 型 

当 子 类 型 可 重症 时 ， 需 要 对 子 类 型 鉴别 子 作 一 个 微小 的 改动 ， 原 因 是 一 个 超 类 型 的 实例 
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可 能 需要 创建 多 个 子 类 型 的 实例 。 
图 3-9 是 PART 和 它 的 重 倒 子 类 型 在 这 种 情况 的 一 个 例子 。PART 新 增加 了 名 为 Part Type 的 

属性 。Part Type 是 一 个 由 组 成 属性 Manufactured? 和 Purchased? 构成 的 复合 属性 。 每 一 种 组 成 属 

性 都 是 一 个 布尔 变量 ( 即 它 有 两 个 值 ， 是 (“Y”) 或 者 不 是 (“N”))。 当 插入 一 个 新 的 实例 到 

PART 中 时 ， 这 些 组 成 值 的 编码 如 下 : 

[ed 














Purchased? 






全 部 制造 
全 部 购买 









当 应 用 重 炙 法 则 时 ， 子 类 型 鉴别 
子 是 一 个 复合 属性 














Part No 
Description 

Location 

Qty On Hand 

Part Type(Manufactured?， 
Purchased?) 










SUPPLIER 








SupplierlD 


| Part Type: 


Manufactured?="Y" Purchased?="Y 


MANUFACTURED PURCHASED SUPPLIES 
PART PART i Unit Price 
Routing Number 


图 3-9 ”了 于 类 型 鉴别 子 (重生 法 则 ) 


这 个 例子 中 定义 子 类 型 鉴别 子 的 方法 如 图 3-9 所 示 。 注 意 这 种 方法 可 以 被 应 用 到 任意 数 
量 的 重合 子 类 型 问题 中 。 


3.2.4 定义 超 类 型 / 子 类 型 层次 结构 


本 章 中 已 经 考虑 了 很 多 超 类 型 / 子 类 型 联系 的 例子 。 这 些 例子 中 的 子 类 型 中 其 实 还 可 以 
再 定义 子 类 型 (这 时 候 原 来 的 子 类 型 会 变 成 新 定义 的 子 类 型 的 超 类 型 )。 超 类 型 / 子 类 型 层 
次 结构 是 超 类 型 和 子 类 型 的 层次 性 排列 ， 其 中 每 一 个 子 类 型 只 能 有 一 个 超 类 型 ( Elmasri 和 
Navathe，1994 ) 。 

图 3-10 给 出 了 一 个 超 类 型 / 子 类 型 层次 结构 的 例子 。( 为 了 简化 起 见 ， 在 这 里 和 接 下 来 
的 例子 中 ， 都 没有 画 出 超 类 型 鉴别 子 。 参 看 问题 与 练习 2 和 3。) 这 个 例子 包含 了 本 章 到 目前 
为 止 介绍 过 的 大 部 分 概念 和 符号 。 它 同时 介绍 了 一 个 (基于 特 化 的 ) 建 模 方法 ， 你 可 以 在 很 
多 数据 建 模 的 场景 中 使 用 它 。 

1. 超 类 型 / 子 类 型 层次 结构 的 例子 

假设 你 被 要 求 建 模 一 个 大 学 里 的 人 力 资源 情况 。 通 过 使 用 特 化 〈 自 顶岗 下 的 过 程 )， 你 
可 以 如 下 依次 进行 : 从 层次 结构 的 最 顶端 开始 ， 首 先 为 最 通用 的 实体 类 型 建 模 。 在 这 个 例子 
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中 ， 最 通用 的 实体 类 型 是 PERSON (人 )。 列 举 和 PERSON 关联 的 所 有 属性 。 图 3-10 中 显 
示 的 属性 有 SSN (标识 符 )、Name、Address、Gender 和 Date Of Birth。 层 次 结构 最 顶端 的 
实体 类 型 也 称 作 根 。 


PERSON 
SSN 
Name 
Address 
Gender 
Date Of Birth 


EMPLOYEE ALUMNUS STUDENT 


Salary {Degree(Year, 
Date Hired Designation, 
Date)} 


FACULTY STAFF GRADUATE UNDERGRAD 
Rank Position STUDENT STUDENT 
Test Score Class Standing 


Major Dept 





图 3-10 超 类 型 / 子 类 型 层次 结构 的 例子 


接着 定义 根 的 所 有 主要 子 类 型 。 在 这 个 例子 中 ， 一 共有 三 种 类 型 的 PERSON: EMPLOYEE 
(为 大 学 工作 的 人 员 )、STUDENT (注册 课程 的 人 员 ) 和 ALUMNUS (已 经 毕业 的 人 员 )。 假 设 
在 该 大 学 没有 其 他 感 兴趣 的 人 员 类 型 了 ， 如 图 所 示 ， 应 用 全 部 特 化 法 则 。 一 个 人 可 能 会 属于 
多 个 子 类 型 (例如 ALUMNUS 和 EMPLOYEE)， 所 以 可 以 使 用 重 倒 法则。 注意 任何 重 又 都 是 
被 允许 的 (一 个 PERSON 可 以 同时 是 这 三 个 子 类 型 中 的 任意 组 合 )。 如 果菜 些 特定 的 组 合 不 被 
允许 ， 则 一 个 更 精细 的 超 类 型 / 子 类 型 层次 结构 就 需要 被 开发 出 来 去 排除 这 些 被 禁止 的 组 合 。 

这 些 子 类 型 独 有 的 那些 属性 也 被 表示 在 图 上 上。 因此， 每 一 个 EMPLOYEE 的 实例 都 有 Date 
Hired 和 Salary 的 值 。Major Dept 是 STUDENT 的 一 个 属性 ，Degree (由 Year、Designation 和 
Date 组 成 ) 是 ALUMNUS 的 多 值 复合 属性 。 

下 一 步 是 要 评估 这 些 子 类 型 是 否 可 以 做 更 进一步 的 特 化 。 在 这 个 例子 中 ，EMPLOYEE 
被 划分 为 两 个 子 类 型 : FACULTY (教员 ) 和 STAFF (职员 )。FACULTY 有 一 个 独 有 属性 
Rank， 而 STAFF 有 一 个 独 有 属性 Position。 注 意 在 这 个 例子 中 子 类 型 EMPLOYEE 变 成 了 
FACULTY 和 STAFF 的 超 类 型 。 因 为 有 可 能 存在 既 不 是 教员 也 不 是 职员 的 员工 〈 例 如 学 生 助 
理 )， 所 以 部 分 特 化 法 则 被 标明 。 而 一 个 员工 不 能 同时 是 教员 和 职员 ， 所 以 分 离 法 则 在 圆 湛 
中 被 标明 。 

两 种 STUDENT 的 子 类 型 被 定义 : GRADUATE STUDENT 和 UNDERGRAD STUDENT。 
UNDERGRAD STUDENT 有 属性 Class Standing 而 GRADUATE STUDENT 有 属性 Test Score。 
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注意 全 部 特 化 法 则 和 分 离 法 则 都 被 指定 ， 你 应 该 自己 能 够 陈述 这 些 约束 背后 的 业务 规则 。 

2. 超 类 型 / 子 类 型 层次 结构 总 结 

图 3-10 中 层次 结构 包含 的 属性 涉及 如 下 两 个 特性 : 

1 ) 当 属 性 在 整个 层次 结构 中 都 存在 的 话 ， 该 属性 会 被 指派 到 最 高 的 逻辑 等 级 。 例 如 ， 
因为 SSN ( Social Security Number， 社 会 保险 号 ) 适用 于 所 有 人 员 ， 所 以 它 被 指派 到 根 上 。 
相反 ，Date Hired 仅 适 用 于 雇员 ， 所 以 它 被 指派 给 EMPLOYEE。 这 种 方法 保证 共同 的 属性 
能 被 尽量 多 的 子 类 型 共享 。 

2 ) 在 层次 结构 中 等 级 较 低 的 子 类 型 不 仅 从 它们 的 直接 超 类 型 中 继承 属性 ， 还 从 所 有 在 
层次 结构 中 更 高 级 的 超 类 型 中 继承 属性 ， 一 直到 根 为止 。 例 如 ， 一 个 教员 实例 的 所 有 属性 
值 是 : SSN，Name，Address，Gender，Date Of Birth (都 来 自 于 PERSON); Date Hired 和 
Salary (都 来 自 于 EMPLOYEE); Rank (来 自 于 FACULTY )。 


3.3 ”EER 建 模 实例 : Pine Valley 家 具 公 司 


第 2 章 中 展示 了 一 个 Pine Valley 家 具 公 司 的 E-R 图 样 例 。( 图 3-11 为 重新 使 用 Microsoft 
Visio 绘制 的 该 E-R 图 ,) 在 研究 过 这 个 图 之 后 ， 你 可 能 需要 一 些 问题 帮助 你 弄 清楚 这 里 面 的 实 
体 和 联系 的 意义 。 三 个 相应 的 问题 (图 3-11 的 注解 标明 了 每 个 问题 的 来 源 ) 如 下 : 

1 ) 为 什么 有 些 客户 不 在 任何 一 个 销售 区 域 做 交易 ? 

2 ) 为 什么 有 些 员工 不 管理 其 他 员工 ?为 什么 他 们 也 不 被 其 他 员工 所 管理 ?为 什么 有 些 
员工 不 在 工作 中 心 工 作 ? 

3 ) 为 什么 一 些 销 售 商 不 供应 原材料 给 Pine Valley 家 具 公 司 ? 

你 可 能 还 有 其 他 问题 ， 不 过 这 里 先 集 中 精力 解决 这 三 个 问题 ， 从 而 阐述 如 何 使 用 超 类 型 / 
子 类 型 联系 去 建立 一 个 更 加 特定 的 (语义 上 更 加 丰富 ) 的 数据 模型 。 

在 对 上 面 三 个 问题 做 了 一 些 调研 后 ， 我 们 发 现 了 可 以 应 用 到 Pine Valley 家 具 公 司 业 务 上 
的 一 些 业务 规则 : 

1 ) 有 两 种 类 型 的 客户 : 普通 常客 和 全 国 性 大 客户 。 只 有 普通 常客 在 销售 区 域 做 交易 。 
一 个 销售 区 域 存在 当 且 仅 当 至 少 有 一 个 普通 常客 与 之 关联 。 一 个 全 国 性 大 客户 通常 与 一 个 大 
客户 经 理 相 关联 。 一 个 客户 可 能 同时 是 普通 常客 和 全 国 性 大 客户 。 

2 ) 存在 两 种 特殊 的 员工 : 管理 人 员 和 工会 员工 。 只 有 工会 员工 在 工作 中 心 工作 ， 而 管 
理 人 员 管 理工 会 员工 。 除 了 管理 人 员 和 工会 员工 外 ， 还 有 其 他 类 型 的 员工 。 一 个 工会 员工 可 
能 会 被 提升 为 管理 人 员 ， 此 时 他 就 不 再 是 一 个 工会 员工 了 。 

3 ) Pine Valley 家 具 公 司 与 多 家 不 同 的 销售 商 保持 联系 ， 但 不 是 所 有 销售 商都 供应 原 材 
料 给 公司 。 一 旦 销售 商 成 为 公司 原材料 的 官方 供应 商 时 ， 这 个 销售 商 就 与 一 个 合同 号 关联 。 

可 使 用 这 些 业 务 规则 将 图 3-11 的 E-R 图 修改 为 图 3-12 的 EER 图 (图 中 去 掉 了 除 对 
修改 比较 重要 的 属性 外 的 大 部 分 的 属性 )。 法 则 1 意味 着 CUSTOMER 被 全 部 重合 特 化 为 
REGULAR CUSTOMER (普通 常客 ) 和 NATIONAL ACCOUNT CUSTOMER (全 国 性 大 客户 )。 
一 个 CUSTOMER 的 复合 属性 (由 National 和 Regular 构成 ) Customer Type 被 用 来 指定 一 个 客 
户 是 一 个 普通 常客 还 是 一 个 全 国 性 大 客户 ， 还 是 两 者 皆 是 。 因 为 只 有 普通 常客 在 销售 区 域 中 
做 交易 ， 所 以 仅仅 只 有 普通 常客 被 包含 在 与 Does Business In (关联 实体 的 ) 联系 中 。 
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图 3-12 使 用 微软 Visio 绘制 的 Pine Valley 家 具 公 司 的 EER 图 
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规则 2 意味 着 EMPLOYEE 被 部 分 分 离 特 化 为 MANAGEMENT EMPLOYEE (管理 人 
员 ) 和 UNION EMPLOYEE (工会 员工 )。EMPLOYEE 的 属性 Employee Type 用 来 辨别 这 两 
种 特殊 类 型 的 员工 。 特 化 是 部 分 的 ， 这 是 因为 除了 这 两 种 员工 类 型 外 还 有 其 他 种 类 的 员工 。 
只 有 工会 员工 被 包含 在 Works In 联系 中 ,而 所 有 工会 员工 均 在 工作 中 心 工作 ， 故 UNION 
EMPLOYEE 与 Works In 邻接 的 最 小 基数 是 强制 的 。 因 为 一 个 员工 不 能 同时 是 管理 人 员 和 工 
会 员工 〈 尽 管 他 /她 可 能 会 随时 间 改 变 状 态 )， 所 以 特 化 是 分 离 的 。 

规则 3 意味 着 VENDOR (销售 商 ) 部 分 特 化 为 SUPPLIER (供应 商 )， 因 为 只 有 一 部 分 
的 销售 商会 成 为 供应 商 。 一 个 供应 商 〈 而 不 是 一 个 销售 商 ) 有 合同 号 。 因 为 VENDOR 仅 有 
一 个 子 类 型 ， 所 以 就 没有 理由 再 指定 分 离 和 重 又 法 则 了。 因为 所 有 供应 商都 会 供应 原材料 ， 
所 以 供应 商 的 联系 ( Visio 中 的 关联 实体 ) 中 与 RAW MATERIAL (原材料 ) 邻接 的 最 小 基数 
目 为 1。 

这 个 例子 前 明了 理解 实体 的 谤 化 / 特 化 后 一 个 E-R 图 是 怎样 被 转换 为 一 个 EER 图 的 。 
现在 的 数据 模型 不 仅 包 括 超 类 型 和 子 类 型 实体 ， 还 有 一 些 额 外 属性 ， 包 括 鉴别 属性 也 被 添加 
进来 ; 最 小 基数 发 生 改 变 (从 0 变 为 1 ),， 联系 也 从 超 类 型 移 向 了 子 类 型 。 

现在 是 强调 之 前 提 到 的 关于 数据 建 模 要 点 的 一 个 好 时 机 : 数据 模型 是 一 个 组 织 所 需要 的 
数据 的 一 个 概念 图 ， 一 个 数据 模型 并 不 会 和 真正 实现 的 数据 库 进行 一 对 一 的 映射 。 例 如 ， 一 
个 数据 库 设计 者 可 能 会 选择 把 所 有 的 客户 实例 放 在 一 个 数据 库 表 中 ， 而 不 是 按 客户 的 类 型 进 
行 划分 。 这 一 细节 现在 并 不 重要 ， 目 前 紧要 的 是 如 何 去 解 释 这 些 支 配 数据 的 法 则 ， 而 不 是 数 
据 如 何 存储 或 者 更 高 效 的 访问 ， 这 个 是 信息 处 理 领 域 的 内 容 。 当 讲 到 数据 库 设 计 和 实现 的 时 
候 ， 会 着 重 讨论 这 些 技 术 和 一 些 关 于 效率 的 问题 。 

尽管 图 3-12 中 的 EER 模型 阐明 了 一 些 问 题 并 且 使 图 3-11 中 的 数据 模型 更 加 清晰 明了 ， 
但 是 有 些 人 依然 很 难 理解 它们 。 有 些 人 可 能 并 不 关心 数据 的 各 种 类 型 ， 有 的 人 不 希望 通过 观 
察 EER 图 的 所 有 细节 去 理解 数据 库 所 涵盖 的 内 容 。 下 一 节 将 着 重 介 绍 如 何 简化 一 个 完全 明 
了 的 数据 模型 ， 以 呈现 给 特定 的 用 户 组 和 管理 层 。 


3.4 打包 数据 模型 


根据 Len Silverston ( 1998 ),“ 数 据 建 模 者 作为 手艺 人 的 时 代 已 经 过 去 ， 组织 机 构 不 再 能 
承担 得 起 从 头 开 始 手工 设计 数据 模型 的 劳力 和 时 间 。 作 为 对 这 些 限制 的 响应 ， 数 据 建 模 者 作 
为 工程 师 的 时 代 已 经 来 临 。” 正 如 一 个 公司 管理 者 所 解释 的 ,“ 使 用 打包 数据 模型 是 他 的 公司 
赢得 快速 发 展 和 长 期 成 功 的 核心 战略 之 一 。” 打包 数据 模型 是 数据 建 模 的 游戏 改变 者 。 

如 第 2 章 所 介绍 ， 为 了 开始 一 个 数据 建 模 工程 ， 越 来 越 流 行 的 方法 是 获得 一 个 打包 的 或 
者 预定 义 的 数据 模型 ， 即 一 个 所 谓 的 通用 模型 或 者 一 个 面向 特定 行业 的 模型 (一 些 供应 商 把 
它们 叫 作 逻 辑 数 据 模 型 [LDM]， 但 是 这 些 确实 是 本 章 中 所 介绍 的 EER 图 ; 数据 模型 可 能 是 
购买 的 软件 包 的 一 部 分 ， 例 如 一 个 企业 资源 规划 或 者 客户 关系 管理 系统 )。 这 些 打 包 数 据 模 
型 并 不 固定 ; 相反 ， 数 据 建 模 师 基于 行业 (运输 或 者 通信 行业 ) 或 者 某 个 挑选 出 的 领域 ( 金 
融 或 者 制造 领域 ) 中 的 最 佳 实践 数据 模型 ， 定 制 预定 义 模型 去 适应 其 公司 的 业务 规则 。 这 个 
数据 建 模 方法 的 核心 假设 是 ， 在 同一 个 行业 或 特定 领域 中 的 企业 的 基本 结构 或 者 模式 相似 。 
打包 数据 模型 可 从 各 种 咨询 顾问 或 者 数据 库 技术 卖家 那里 获得 。 尽 管 打 包 数 据 模型 并 不 便 
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宜 ， 但 很 多 人 相信 使 用 了 这 些 资 源 之 后 ， 整 体 的 花费 会 降低 ， 数 据 建 模 的 质量 也 会 提高 。 一 
些 常 用 的 打包 数据 模型 可 以 在 出 版 物 中 找到 (例如 本 章 最 后 列 出 的 Hay 和 Silverston 的 文章 
和 书籍 )。 

通用 数据 模型 ( universal data model) 是 一 种 通用 的 或 者 模板 式 的 数据 模型 ， 可 以 被 重 
新 使 用 作为 数据 建 模 工程 的 一 个 起 点 。 有 人 把 这 些 叫 作 数 据 模 型 模式 ， 类 似 于 编程 中 可 以 复 
用 的 代码 的 模式 的 定义 。 一 个 通用 数据 模型 并 不 一 定 是 “正确 ”的 数据 模型 ， 但 是 它 是 为 机 
构 开 发 一 个 早 越 的 数据 模型 的 一 个 成 功 的 起 点 。Hoberman ( 2006 ) 概述 了 为 什么 预 打 包 数 据 
模型 方法 能 成 为 快速 开发 和 演化 一 个 数据 库 的 重要 方法 的 原因 。 

3.4.1 利用 打包 数据 模型 改进 数据 建 模 过 程 

通过 一 个 打包 数据 模型 进行 数据 建 模 所 需要 的 技巧 并 不 比 从 头 开 始 进行 数据 建 模 少 。 打 
包 数 据 模 型 并 不 是 要 让 数据 建 模 师 失 业 (或 者 使 你 不 能 够 获得 你 现在 想 要 的 类 似 于 初级 数据 
分 析 师 这 种 职位 ， 而 仅仅 是 因为 你 学 习 过 数据 库 管 理 ! )。 事 实 上 ， 利 用 打包 进行 工作 需要 
很 多 高 级 的 技巧 ， 就 像 在 本 章 和 第 2 章 学习 到 的 那样 。 后 面 将 看 到 ， 打 包 数 据 模型 相当 复 
杂 ， 这 是 由 于 它 是 彻底 而 周密 的 ， 并 且 被 开发 用 来 涵盖 各 种 可 能 的 场景 。 一 个 数据 建 模 师 必 
须要 像 了 解 打包 一 样 了 解 这 个 公司 ， 才 能 为 这 个 公司 的 特定 规则 定制 合适 的 打包 模型 。 

当 你 购买 一 个 数据 模型 时 你 得 到 了 什么 ?你 买 到 的 是 元 数据 。 你 得 到 的 通常 是 一 个 
CD， 上 面 有 对 数据 模型 非常 完整 细致 的 描述 ,通常 由 结构 化 数据 建 模 工 具 所 定义 ,例如 冠 
群 电脑 公司 (Computer Associates) 的 Erwin 和 甲骨 文公 司 ( Oracle Corporation) 的 Oracle 
Designer 等 。 数 据 模型 的 供应 商 已 经 画 好 了 EER 图 ; 命名 并 定义 了 数据 模型 中 的 所 有 元 素 ; 
给 出 了 数据 类 型 的 所 有 属性 特征 (字符 、 数 字 、 图 像 )、 大 小 、 格 式 ， 等 等 。 你 可 以 打印 出 
数据 模型 和 丰富 的 内 容 文 档 去 文 持 定制 化 过 程 。 当 你 开始 定制 模型 时 ， 可 以 使 用 数据 建 模 工 
具 去 自动 生成 SQL 命令 ,定义 各 种 数据 库 管理 系统 的 数据 库 。 

当 你 从 一 个 购买 的 解决 方案 开始 着 手 时 ， 数 据 建 模 过 程 会 有 什么 不 同 ?” 下面 是 主要 的 不 
同 点 (关于 这 些 不 同 的 理解 通过 我 们 在 Overstock.com 的 访问 得 到 了 更 进一步 的 强化 ): 

e 因为 购买 的 数据 模型 是 外 延 的 ， 你 从 确认 能 应 用 到 你 的 数据 建 模 情景 的 数据 模型 的 部 

分 开始 。 集 中 精力 在 这 些 部 分 并 关注 尽量 多 的 细节 。 像 大 部 分 数据 建 模 工 作 一 样 ， 从 
实体 开始 ， 然 后 是 属性 ， 最 后 是 联系 。 同 时 考虑 你 的 机 构 在 未 来 将 如 何 运 作 ， 而 不 仅 


仅 是 现在 。 
e 之 后 你 应 该 将 确定 后 的 数据 元 素 重 命名 为 本 地 化 的 一 些 名 字 ， 而 不 是 打包 中 一 些 通用 
的 名 字 。 


在 很 多 情况 下 ， 打 包 数 据 模型 会 用 于 新 的 信息 系统 来 替代 已 有 的 数据 库 ， 并 扩展 到 新 

的 领域 。 所 以 下 一 步 是 映射 即将 被 打包 使 用 的 数据 到 现在 的 数据 库 中 的 数据 ， 这 种 映 

射 的 一 种 用 法 是 设计 从 现 有 数据 库 转 换 到 新 结构 的 迁移 计划 。 下 面 是 这 种 映射 过 程 的 

一 些 要 点 : 

4 可 能 会 有 一 些 打 包 中 的 数据 元 素 不 在 现 有 的 系统 中 ， 也 有 一 些 现 有 数据 库 中 的 数 
据 元 素 不 在 打包 中 。 因 此 ， 一 些 元 素 并 不 会 在 旧 环 境 和 新 环境 之 间 得 到 映射 。 这 
是 可 以 被 预料 到 的 ， 因 为 打包 模型 会 满足 一 些 你 在 现 有 的 数据 库 中 没有 满足 的 需 
求 ， 还 有 你 想 在 公司 保持 做 一 些 特别 的 事情 ， 尽 管 它们 并 不 是 标准 的 惯例 。 不 过 ， 
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首先 请 确认 每 一 个 非 映 射 的 数据 元 素 确实 是 独一无二 并 且 急 需 的 。 例 如 ， 可 能 一 
个 现 有 数据 库 的 数据 元 素 实际 上 是 从 购买 的 数据 模型 的 其 他 更 加 原子 的 数据 衍生 
而 来 。 其 次 ， 你 需要 决定 你 购买 的 数据 模型 独 有 的 那些 数据 元 素 现在 确实 需要 ， 
或 者 是 当 以 后 你 准备 利用 它们 时 能 够 被 添加 上 去 。 

* 通常 ,移入 购 闫 的 数据 模型 中 的 业务 规则 会 包含 所 有 可 能 的 情况 (例如 ， 与 一 个 客 
户 订单 相关 联 的 最 大 客户 数量 )。 购 买 的 数据 模型 会 考虑 达到 最 大 的 灵活 度 ， 而 一 
个 通用 的 业务 规则 有 可 能 并 不 适合 你 的 状况 (例如 ， 你 确信 根本 不 会 出 现 一 个 客户 
订单 关联 超过 一 个 客户 的 情况 )。 正 如 你 在 下 一 节 中 会 看 到 的 ， 购 买 数据 模型 的 灵 
活性 和 泛 化 性 会 带 来 复杂 的 联系 和 大 量 的 实体 类 型 。 尽 管 购买 的 模型 使 你 意识 到 
各 种 可 能 的 情况 ， 不 过 你 还 是 需要 决定 你 是 否 真 的 需要 这 种 灵活 性 以 及 这 种 复杂 
度 是 否 值得 。 

* 因为 你 是 从 一 个 原型 数据 模型 开始 做 起 ， 因 此 有 可 能 较 早 地 吸引 用 户 和 管理 者 去 

支持 新 的 数据 库 并 参与 到 数据 建 模 工程 中 。 采 访 、JAD 会 话 和 其 他 需求 采集 活动 

应 该 基于 具体 的 实体 -联系 图 而 不 是 那些 愿望 列表 。 购 买 的 数据 模型 应 该 设 定 一 

些 供 询 问 的 问题 或 者 供 讨论 的 事项 -。( 例 如 ,“ 我 们 曾经 有 过 一 个 客户 订单 关联 多 个 

客户 的 情况 吗 ?” 或 者 “一 个 员工 有 没有 可 能 是 一 个 客户 ?”)。 此 时 购买 的 数据 模 

型 在 某 种 意义 上 是 提供 一 个 可 视 化 的 项 目 清 单 以 供 讨论 〈 例 如 ， 我 们 真 的 需要 这 些 

数据 加 ? 这 种 业务 规则 是 否 适 合 我 们 ? ) ; 而 且 因 为 这 个 数据 模型 是 全 面 的 ， 所 以 

不 太 可 能 会 遗 源 某 个 重要 的 需求 。 

因为 购买 的 数据 模型 是 很 全 面 的 ， 你 可 能 无 法 构建 并 填充 整个 数据 库 ， 或 者 无 法 

在 一 个 工程 中 定制 整个 数据 模型 。 然 而 ， 你 并 不 布 望 失去 展望 未 来 对 完整 数据 模 

型 需求 的 机 会 。 因 此 ， 你 要 决定 首先 创建 什么 ， 并 确定 为 了 建立 从 购买 数据 模型 

所 能 够 获得 的 尽量 有 意义 的 数据 模型 的 后 续 步 又 。 

你 会 在 本 书 的 后 续 草 节 中 学 习 到 重要 的 数据 库 建 模 与 设计 的 概念 和 技巧 ， 这 些 概念 和 技 
巧 对 于 任何 数据 库 开发 工作 都 非常 重要 ， 包 括 那 些 基于 购买 的 数据 模型 的 工作 。 不 过 涉及 购 
买 的 数据 模型 的 工程 还 是 有 一 些 重要 事情 需要 注意 。 其 中 涉及 使 用 已 有 的 数据 库 去 指导 定制 
一 个 购买 的 数据 模型 的 工作 ， 主 要 包括 以 下 几 点 : 

。 随 着 时 间 的 推移 ， 同 样 的 属性 可 能 被 用 作 不 同 的 目的 一 一 现在 的 系统 中 ， 人 们 把 这 种 

属性 称 为 重 载 列 。 这 意味 着 有 些 数据 值 可 能 在 迁移 现 有 的 数据 库 到 新 数据 库 的 过 程 中 
值 的 意义 并 非 一 致 。 有 时 这 种 值 的 改变 并 不 会 写 在 文档 中 ， 而 且 直 到 迁移 开始 才 被 人 
们 知晓 。 一 些 数 据 可 能 不 青 被 需要 (可 能 被 一 个 特殊 的 商业 项 目 所 使 用 )， 或 者 可 能 
有 一 些 隐 藏 的 需求 并 没有 被 正式 地 并 人 数据 库 设计 中 ， 要 立即 着 手 去 处 理 它 们 。 

。 类 似 地 ， 有 一 些 属 性 可 能 为 空 ( 即 没有 值 )， 至 少 对 于 某 些 时 段 来 说 如 此 。 例 如 ,一 
些 员工 的 家 庭 住址 信息 可 能 会 丢失 ， 或 者 对 于 一 些 很 多 年 前 开发 的 产品 ， 产 品 线 上 的 
产品 工程 属性 也 可 能 缺失 。 应 用 软件 错误 、 人 工 数 据 输入 错误 或 其 他 原因 都 可 导致 这 
种 缺失 的 发 生 。 正 如 已 经 学 过 的 ， 缺 失 的 数据 意味 着 是 可 选 的 数据 ， 实 体 子 类 型 也 有 
这 样 的 需要 。 因 此 ， 需 要 对 这 些 缺 失 数据 进行 研究 从 而 理解 为 什么 数据 是 黎 踊 的 。 
数据 剖析 是 理解 现存 数据 模型 中 的 隐藏 含义 和 识别 不 一 致 性 的 好 方法 ， 因 此 数据 和 业 
务 规则 都 需要 被 包含 在 定制 的 购买 的 数据 模型 中 。 数 据 剖 析 是 通过 统计 的 方法 去 分 析 
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数据 ， 发 现 洪 在 的 模式 和 环 疲 。 数 据 训 析 可 以 发 现 异 常 值 ， 识 别 数据 分 布 随时 间 的 变 
化 ， 还 可 以 识别 数据 中 出 现 的 其 他 现象 。 数 据 分 布 的 每 一 次 微小 扰动 都 可 以 说 明 一 些 
事情 ， 比 如 主要 应 用 系统 的 更 改 何 时 发 生 ， 业 务 规则 何 时 改变 等 。 通 常 这 些 模式 都 暗 
示 着 数据 库 的 设计 有 问题 (例如 ,将 不 同 实体 的 数据 组 合 起 来 用 于 提高 一 个 特殊 查询 
集 的 处 理 速 度 ， 然 而 这 个 更 好 的 结构 却 没有 被 存储 )。 数 据 误 析 也 可 用 来 评估 目前 数 
据 的 准确 度 以 及 用 高 质量 的 数据 填充 已 购买 的 数据 模型 时 ， 预 测 需 要 的 数据 清洗 的 工 
作 量 。 

在 定制 购买 的 数据 模型 中 最 大 的 挑战 是 确定 这 个 数据 模型 中 所 包含 的 业务 规则 。 购 
买 的 数据 模型 会 满足 大 部 分 你 需要 的 规则 ， 但 是 每 一 条 规则 都 必须 经 过 你 公司 的 核 
实 。 幸运 的 是 你 并 不 需要 去 猜测 哪些 规则 需要 处 理 ; 每 一 条 规则 都 由 购买 数据 模型 的 
实体 、 属 性 、 联 系 和 它们 的 元 数据 (名 字 、 定 义 、 数 据 类 型 、 格 式 、 大 小 等 ) 展示 出 
来 。 你 只 需要 花 时 间 与 领域 专家 一 起 仔细 检查 每 一 项 数据 元 素 ， 确 保 你 的 联系 基数 和 
其 他 数据 模型 的 特征 都 是 正确 的 就 可 以 了 。 
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本 质 上 来 说 任何 已 有 的 数据 模型 都 可 以 成 为 一 个 新 的 数据 建 模 工程 的 起 始点 。 最 好 的 预 
打包 数据 模型 应 是 综合 性 的 ， 使 用 扩展 的 EER 特性 。 真 正 的 预 打 包 数 据 模型 涵盖 内 容 太 广 
泛 ， 其 例子 已 经 超出 了 本 章 的 范畴 。 不 过 如 果 你 对 EER 概念 和 符号 有 一 个 基本 的 和 掌握， 就 
应 该 能 够 理解 并 使 用 大 部 分 的 通用 数据 模型 进行 工作 。 


总 结 


本 章 介 绍 了 基本 的 E-R 模型 如 何 扩展 为 包括 超 类 型 / 子 类 型 联系 。 超 类 型 是 指 与 一 个 或 
多 个 子 类 型 有 联系 的 一 般 实体 类 型 。 子 类 型 是 指 在 组 织 中 的 实体 类 型 中 有 某 个 实体 集 。 例 
如 ， 实 体 类 型 PERSON 常常 被 建 模 为 超 类 型 。PERSON 的 子 类 型 常常 包括 EMPLOYEE， 
VOLUNTEER (志愿 者 ) 和 CLIENT。 子 类 型 继承 与 其 关联 的 超 类 型 的 属性 和 联系 。 

数据 建 模 中 超 类 型 / 子 类 型 联系 通常 在 如 下 两 种 情况 会 被 考虑 使 用 : 第 一 ， 有 属性 应 用 
到 某 个 实体 类 型 的 一 些 (但 不 是 全 部 ) 实例 中 。 第 二 ， 与 一 个 子 类 型 相关 联 的 实例 对 于 这 个 
子 类 型 是 独 有 的 。 

泛 化 和 特 化 技术 是 开发 超 类 型 / 子 类 型 联系 重要 的 指导 。 泛 化 是 一 个 目 确 加 上 的 过 程 ， 
它 是 从 更 具 专门 化 的 实体 类 型 中 定义 一 个 通用 的 实体 类 型 。 特 化 是 一 个 目 顶 向 下 的 过 程 ， 它 
是 给 已 有 的 超 类 型 定义 一 个 或 多 个 子 类 型 。 

EER 模型 的 符号 能 够 捕捉 到 应 用 于 超 类 型 / 子 类 型 联系 的 重要 业务 规则 。 完 全 性 约束 
允许 声明 一 个 超 类 型 的 实例 是 否 一 定 至 少 是 一 个 子 类 型 的 成 员 。 有 两 种 情况 : 全 部 特 化 说 明 
超 类 型 的 实例 一 定 至 少 是 一 个 子 类 型 的 成 员 。 而 部 分 特 化 说 明 超 类 型 的 实例 有 可 能 是 也 有 可 
能 不 是 任何 一 个 子 类 型 的 成 员 。 分 离 性 约束 声明 一 个 超 类 型 的 实例 是 否 可 以 同时 是 两 个 或 者 
更 多 子 类 型 的 成 员 。 同 样 有 两 种 情况 : 分 离 法 则 说 明 在 给 定时 间 一 个 实例 只 能 是 一 个 子 类 型 
的 成 员 ， 而 重 释 法 则 说 明 一 个 实例 可 以 同时 是 两 个 或 者 多 个 子 类 型 的 成 员 。 

子 类 型 鉴别 子 是 一 个 超 类 型 的 属性 ， 其 属性 的 值 决 定 了 超 类 型 的 实例 属于 哪个 (哪些) 
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子 类 型 。 超 类 型 / 子 类 型 层次 结构 是 一 个 超 类 型 和 子 类 型 的 层次 性 排列 ， 其 中 每 一 个 子 类 型 
只 能 有 一 个 超 类 型 。 

打包 数据 模型 也 被 称 作 通 用 和 特定 行业 的 数据 模型 ， 广 泛 利用 了 EER 的 特性 。 这 些 泛 
化 数据 模型 常常 使 用 多 级 的 超 类 型 / 子 类 型 层次 结构 和 关联 实体 。 主 题 和 主题 角色 的 分 离 创 
建 了 很 多 实体 类 型 。 当 为 一 特定 组 织 定制 数据 模型 时 ， 这 种 复杂 度 可 以 被 简化 ， 并 且 可 以 利 
用 实体 集群 通过 更 简单 的 视角 把 数据 模型 展示 给 不 同 的 观众 。 

在 数据 建 模 中 ， 打 包 数 据 模型 的 使 用 可 以 节省 可 观 的 时 间 和 花费 。 使 用 打包 数据 模型 进 
行 数据 建 模 的 技巧 是 相当 高 级 的 ， 并 且 建 立 在 本 书 介绍 的 数据 建 模 原 则 的 基础 上 。 在 定制 通 
用 的 打包 模型 中 ， 你 不 仅 需要 考虑 目前 的 需要 也 要 考虑 将 来 的 需求 。 数 据 元 素 必 须 被 重 命名 
为 本 地 化 的 一 些 名 字 ， 目 前 的 数据 也 需要 被 映射 到 目标 数据 库 设 计 中 。 这 种 映射 是 很 有 挑战 
性 的 ， 这 是 由 于 当前 数据 库 中 的 数据 与 最 佳 实践 的 购买 数据 模型 的 数据 之 间 存 在 各 种 形式 上 
的 不 匹配 。 幸 运 的 是 ， 更 灵活 的 数据 模型 能 够 帮助 构建 定制 模型 ， 并 方便 与 专家 的 沟通 和 达 
到 完整 性 。 重 载 的 列 、 有 缺陷 的 元 数据 和 对 目前 数据 库 结 构 的 滥用 这 些 问 题 都 使 定制 和 移 
植 的 过 程 更 加 具有 挑战 性 。 数 据 剖 析 可 以 被 用 来 理解 当前 的 数据 并 为 你 的 组 织 发 掘 潜在 的 业 
务 规则 和 数据 隐藏 的 意义 。 


关键 术语 
Attribute inheritance (属性 继承 ) Specialization ( 特 化 ) 
Completeness constraint (完全 性 约束 ) Subtype ( 子 类 型 ) 
Disjoint rule (分 离 法 则 ) Subtype discriminator ( 子 类 型 鉴别 子 ) 
Disjointness constraint (分 离 性 约束 ) Supertype ( 超 类 型 ) 
Enhanced entity relationship (EER) model (增强 Supertype/subtype hierarchy ( 超 类 型 / 子 类 型 层 
型 实体 一 联系 模型 ) 次 结构 ) 
Generalization ( 泛 化 ) Total specialization rule (全 部 特 化 法 则 ) 
Overlap rule ( 重 和 到 法 则 ) Universal data model (通用 数据 模型 ) 
Partial specialization rule (部 分 特 化 法 则 ) 
复习 题 
1. 定义 下 面 的 术语 : 
a. 超 类 型 b. 子 类 型 
c, 特 化 d. 属性 继承 
e. 完全 性 约束 f 增强 型 实体 一 联系 (EER ) 模型 
g. 子 类 型 鉴别 子 h. 全 部 特 化 法 则 
i. 泛 化 j. 分 离 法 则 
k. 重合 法 则 1. 部 分 特 化 法 则 
m. 通用 数据 模型 
2. 匹配 下 面 的 术语 和 定义 : 
超 类 型 a. 超 类 型 的 子 集 
子 类 型 b. 实体 属于 两 个 子 类 型 


特 化 c. 子 类 型 得 到 超 类 型 的 属性 
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子 类 型 鉴别 子 d. 通用 的 实体 类 型 
属性 继承 e. 从 一 个 实体 类 型 中 创建 子 类 型 
重合 法 则 f 确定 一 个 实体 的 目标 子 类 型 
对 比 下 面 的 术语 : 
a. 超 类 型 ; 子 类 型 b. 泛 化 ; 特 化 
c. 分 离 法 则 ; 重 秋 法 则 d. 全 部 特 化 法 则 ; 部 分 特 化 法 则 


陈述 哪 两 种 情况 表明 一 个 数据 库 设 计 者 应 该 考虑 使 用 超 类 型 / 子 类 型 联系 。 
给 出 一 个 超 类 型 / 子 类 型 联系 的 例子 〈 除 了 本 章 讨 论 过 的 )。 


. 什么 是 属性 继承 ”为 什么 它 很 重要 ? 
. 给 下 面 的 每 种 情况 举 一 个 例子 : 


a. 一 个 应 用 分 离 法 则 的 超 类 型 / 子 类 型 联系 
b. 一 个 应 用 重 和 春 法 则 的 超 类 型 / 子 类 型 联系 


.在 一 个 EER 图 中 通常 能 捕捉 到 什么 类 型 的 业务 规则 ? 


子 类 型 鉴别 子 的 目的 是 什么 ? 


.什么 时 候 应 该 使 用 打包 数据 模型 ? 
， 从 打包 数据 模型 开始 数据 建 模 工程 和 从 一 张 白 纸 开始 数据 建 模 工程 有 哪些 不 同 ? 


一 个 使 用 打包 数据 模型 的 数据 建 模 工程 需要 的 技巧 比 一 个 不 使 用 打包 数据 模型 的 工程 多 还 是 少 ? 
为 什么 ? 


， 当 你 购买 一 个 打包 数据 模型 后 ， 你 得 到 了 什么 ? 
. 什么 时 候 应 该 使 用 超 类 型 / 子 类 型 层次 结构 ? 
.什么 时 候 一 个 超 类 型 的 成 员 至 少 是 一 个 子 类 型 的 成 员 ? 


问题 与 练习 


b, 


检查 图 3-10 的 大 学 EER 图 的 层次 结构 。 作 为 一 个 学 生 ， 你 是 UNDERGRAD STUDENT 或 GRADUATE 
STUDENT 这 两 个 子 类 型 中 一 种 子 类 型 的 实例 。 列 出 你 包含 的 所 有 属性 的 名 字 。 对 于 每 一 个 属性 ， 记 
录 你 的 属性 值 。 


.对 图 3-10 显示 的 每 一 种 超 类 型 添加 一 个 子 类 型 鉴别 子 。 显 示 给 每 一 种 子 类 型 实例 赋予 的 鉴别 子 的 


值 。 请 使 用 下 面 的 子 类 型 鉴别 子 的 名 字 和 值 : 

a. PERSON: Person Type (Employee? Alumnus? Student? ) 

b. EMPLOYEE: Employee Type (Faculty, Staff) 

c. STUDENT: Student Type (Grad, Undergrad ) 

为 了 简化 起 匈 ， 本 章 的 很 多 图 都 遗漏 了 子 类 型 鉴别 子 的 表示 。 在 下 面 列 出 的 每 一 张 图 中 加 入 子 类 型 
鉴别 子 符号 。 如 果 有 必要 ， 为 鉴别 子 创建 一 个 新 的 属性 。 

a. 图 3-2 b. 图 3-3 c. 图 3-4b d. 图 3-7a e. 图 3-7b 


es mi 


联系 给 出 具体 例子 的 定 


0 


关系 给 出 具体 例子 的 定义 。 


. 一 个 租车 机 构 将 待 租 的 车 辆 分 为 以 下 四 类 : 紧凑 型 、 中 型 、 全 尺寸 型 和 运动 多 功能 型 。 这 个 机 构 希 


望 能 够 为 所 有 车 型 记录 如 下 数据 : Vehicle ID，Make，Model，Year，Color。 这 四 种 类 型 的 车 都 没有 
独 有 的 属性 。 车 辆 实体 类 型 有 一 个 与 客户 实体 类 型 的 联系 (名 叫 Rents)。 没 有 一 种 类 型 的 车 辆 与 某 种 
实体 类 型 有 着 独一无二 的 联系 。 对 这 个 问题 ， 你 考虑 创建 一 个 超 类 型 / 子 类 型 联系 吗 ? 为 什么 ? 

图 书馆 中 的 实体 类 型 HOLDING (馆藏 ) 有 四 种 子 类 型 : BOOK，AUDIO BOOK，DVD 和 SOFTWARE。 
对 下 面 每 种 场景 绘制 一 个 单独 的 EER 图 的 片段 : 
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a. 在 一 个 特定 时 刻 ， 一 个 馆藏 必须 刚好 是 这 几 种 子 类 型 之 一 。 

b. 一 个 馆藏 可 能 是 也 可 能 不 是 这 几 种 子 类 型 之 一 。 然 而 ， 如 果 一 个 馆藏 是 这 几 种 子 类 型 之 一 ， 那 
么 它们 就 不 能 同时 是 剩 下 的 子 类 型 了 。 

c. 一 个 馆藏 可 能 是 也 可 能 不 是 这 几 种 子 类 型 之 一 。 另 一 方面 ， 一 个 馆藏 可 能 同时 是 这 些 子 类 型 中 
的 任意 两 个 (甚至 四 个 )。 

d. 在 一 个 特定 的 时 间 ， 一 个 馆藏 必须 是 这 些 子 类 型 中 至 少 一 个 子 类 型 。 


. 一 个 银行 有 三 种 类 型 的 账户 : 支票 账户 (checking)、 人 储蓄 账户 〈savings)、 贷 款 账 户 (loan)。 下 面 


是 每 一 种 账户 的 属性 : 
CHECKING: Acct No, Date Opened, Balance, Service Charge 
SAVINGS: Acct No, Date Opened, Balance, Interest Rate 
LOAN: Acct No, Date Opened, Balance, Interest Rate, Payment 

假设 每 种 银行 账户 都 恰好 是 这 几 种 子 类 型 之 一 。 请 使 用 泛 化 技术 开发 一 个 EER 模型 片段 去 表 
达 这 种 场景 。 可 以 使 用 传统 的 EER 符号 、Visio 的 符号 或 者 子 类 型 在 超 类 型 中 的 符号 ， 如 你 的 指导 
老师 所 指定 的 那样 。 记 得 包含 一 个 子 类 型 鉴别 子 。 


.请 对 下 面 的 问题 画 一 个 EER 图 ， 可 以 使 用 文字 的 EER 符号 、Visio 的 符号 或 者 子 类 型 在 超 类 型 中 


的 符号 ， 如 你 的 指导 老师 所 指定 的 那样 。 

一 个 非 营 利 的 组 织 依赖 很 多 不 同类 型 的 人 员 去 维持 其 成 功 的 运转 。 这 个 组 织 对 所 有 人 员 的 以 
下 属性 比较 关注 : SSN，Name，Address，City/State/Zip ，Telephone。 三 种 最 受 关 注 的 人 员 类 型 : 员 
工 、 志 愿 者 和 捐赠 者 。 员 工 只 有 一 个 Date Hired 属性 ， 而 志愿 者 仅 有 一 个 Skill 属性 ， 捐 赠 者 仅 有 
一 个 与 Item (物品 ) 实体 类 型 相关 联 的 联系 (命名 为 Donates)。 一 个 捐赠 者 必须 至 少 捐赠 过 一 个 或 
多 个 物品 ， 而 一 个 物品 可 能 没有 捐赠 者 ， 或 者 是 有 一 个 甚至 多 个 捐赠 者 。 

除了 员工 、 志 愿 者 和 捐赠 者 以 外 还 有 其 他 组 织 的 人 员 。 所 以 一 个 组 织 的 人 员 可 能 不 会 属于 上 
述 三 种 类 型 的 任意 一 个 。 男 一 方面 ， 某 个 时 刻 一 个 人 员 可 能 同时 属于 上 述 类 型 中 的 两 个 或 更 多 个 
(例如 员工 和 捐赠 者 )。 


10. 在 问题 与 练习 9 中 你 创建 的 图 上 加 入 一 个 名 叫 Person Type 的 子 类 型 鉴别 子 。 


li 
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根据 下 面 的 情况 开发 一 个 EER 模型 ， 可 以 使 用 传统 的 EER 符号 、Visio 的 符号 或 者 子 类 型 在 超 类 
型 中 的 符号 ， 如 你 的 指导 老师 所 指定 的 那样 : 

一 个 科技 公司 给 他 们 的 客户 提供 两 种 不 同 的 商品 类 型 : 产品 和 服务 。 提 供 的 商品 由 一 个 提供 
的 商品 ID 和 一 个 商品 描述 属性 进行 标识 。 此 外 ， 产 品 由 产品 名 、 标 准 价 格 和 育 次 发 布 日 期 所 描 
述 ; 服务 由 公司 负责 这 项 服务 的 单位 名 称 和 服务 的 情况 进行 描述 。 有 维修 、 维 护 和 其 他 类 型 的 服 
务 。 一 个 维修 服务 有 一 个 花费 ， 并 且 是 某 个 产品 的 维修 服务 。 维 护 服 务 有 一 个 小 时 费 率 。 幸 运 的 
是 ,一 些 产 品 永 远 都 不 需要 维修 服务 。 然 而 ， 对 于 一 些 产 品 可 能 有 多 个 潜在 的 维修 服务 。 一 个 客 
户 可 能 购买 一 种 提供 的 商品 ， 而 公司 需要 记录 这 个 客户 购买 所 提供 商品 的 时 间 及 所 提供 商品 的 购 
买 联系 人 。 不 幸 的 是 ， 不 是 所 有 的 提供 商品 都 会 被 购买 。 客 户 可 用 客户 ID 来 标识 吴 份 ,并 有 姓 
名 、 地 址 和 电话 号 码 等 属性 。 当 一 个 服务 被 执行 时 ， 这 个 服务 即 针 对 某 个 客户 进行 收费 。 由 于 一 
些 客户 是 替 他 们 的 客户 购买 所 提供 的 商品 ， 一 个 客户 可 能 会 为 一 些 并 不 是 他 们 购买 的 服务 缴费 ， 
同时 也 为 他 们 购买 的 服务 缴费 。 当 一 个 客户 为 一 个 服务 缴费 时 (尽管 一 些 人 可 能 永远 都 不 需要 任 
何 一 项 服务 )， 公 司 需 要 记录 服务 生效 日 期 、 服 务 中 止 日 期 和 应 付款 项 。 
根据 下 面 法 律 公 司 的 描述 画 一 个 EER 图 : 

每 一 个 公司 处 理 的 案件 都 会 有 一 个 独 有 的 案件 号 码 ; 立案 时 间 、 结 案 时 间 和 审判 记录 都 会 被 
记录 在 每 个 案件 中 。 一 个 案件 可 能 有 一 个 或 者 多 个 原告 ， 而 同样 的 原告 可 能 会 涉及 多 个 案件 。 一 
个 原告 会 有 一 个 控诉 理由 。 一 个 案件 可 能 有 一 个 或 者 多 个 被 告 ， 同 样 的 被 告 也 可 能 涉及 多 个 案 
件 。 原 告 和 被 告 可 以 是 一 个 个 体 ， 也 可 以 是 一 个 组 织 。 在 不 同 的 时 间 内 ， 同 一 个 体 或 者 组 织 既 可 
以 成 为 某 个 案件 的 被 告 ， 也 可 以 是 另 一 个 案件 的 原告 。 在 两 种 情况 下 ， 法 人 实体 都 由 一 个 实体 号 
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码 进行 标识 ， 并 有 其 他 属性 ， 如 姓名 和 净 资 产 。 
根据 下 面 的 情况 开发 一 个 EER 模型 ， 可 以 使 用 传统 的 EER 符号 、Visio 的 符号 或 者 子 类 型 在 超 类 
型 中 的 符号 ， 如 你 的 指导 老师 所 指定 的 那样 : 
一 个 国际 技术 学 校 雇佣 你 去 创建 一 个 数据 库 管理 系统 ， 以 帮助 学 校 安排 课程 。 经 过 和 校长 的 
多 次 会 面 后 ， 你 提出 了 如 下 的 实体 、 属 性 和 初始 业务 规则 的 列表 : 
e 房间 是 通过 Building ID 、Room No 进行 标识 的 ， 此 外 还 有 一 个 Capacity 属性 。 一 个 房间 可 以 
是 一 个 实验 室 ， 也 可 以 是 一 个 教室 。 如 果 它 是 一 个 教室 ， 它 会 有 一 个 Board Type 的 额外 属性 。 
e 多 媒体 通过 MTypeID 进行 标识 ， 另 有 属性 Media Type 和 Type Description。 注 意 : 这 里 只 记录 多 
媒体 的 类 型 (类 似 于 VCR 、 投 影 仪 等 )， 并 不 是 单个 的 设备 。 记 录 设 备 超出 了 这 个 工程 的 范畴 。 
e 计算 机 通过 CTypeID 进行 标识 ， 另 有 属性 Computer Type、Type Description 、Disk Capacity 和 
Processor Speed。 请 注意 : 和 多 媒体 一 样 ， 这 里 只 记录 计算 机 的 类 型 ， 而 不 是 单个 计算 机 。 你 
可 以 把 它 想 成 某 种 类 型 的 计算 机 (例如 Core™i7 2.6GHz)。 
e 讲师 通过 Emp ID 进行 标识 ， 另 有 属性 Name、Rank 和 Office Phone。 
e 时 间 模 有 标识 符 TSIS ， 另 有 其 他 属性 Day Of Week、Start Time 和 End Time。 
课程 有 标识 符 Course ID ， 另 有 其 他 属性 Course Description 和 Credits。 一 门 课 程 可 能 有 一 门 或 
者 多 门 预 修 课程 ， 或 者 没有 预 修 课 程 。 一 门 课 程 也 可 以 有 一 节 或 多 节 课 时 。 
课时 有 标识 符 Section ID 和 属性 Enrollment Limit。 
经 过 进一步 的 讨论 ， 你 又 提出 了 一 些 业务 规则 能 够 帮助 你 进行 初始 的 设计 : 
一 个 讲师 在 某 个 学 期 可 能 教授 一 门 课 中 的 一 节 或 者 多 节 课 时 ， 也 可 能 没有 。 
一 个 讲师 会 选择 他 们 更 喜欢 的 时 间 槽 。 
每 一 学 期 的 排 课 情况 数据 会 被 记录 保留 ， 由 学 期 和 学 年 唯一 标识 。 
在 特定 学 年 和 学 期 的 同一 个 时 间 槽 内 ， 一 个 房间 可 能 会 被 安排 给 一 节 识 时 ,或 者 不 安排 课时 。 
然而 ， 一 个 房间 可 能 会 出 现在 一 个 或 者 多 个 排 课 中 ， 或 是 没有 被 排 课 。 一 个 时 间 槽 也 可 能 有 一 
个 或 多 个 排 课 ,或 是 没有 排 课 。 一 个 课时 也 可 能 有 一 个 或 多 个 排 课 , 或 是 没有 排 课 。 提 示 : 你 
怎样 把 这 种 情况 和 你 以 前 见 过 的 情形 联系 起 来 ? 
e 一 个 房间 可 能 有 一 个 或 多 个 类 型 的 多 媒体 ， 或 者 没有 多 媒体 。 
e 讲师 可 能 会 使 用 一 个 或 多 个 多 媒体 ， 或 不 使 用 多 媒体 。 
。 一 个 实验 室 有 一 个 或 者 多 个 计算 机 。 然 而 教室 没有 任何 计算 机 。 
e 一 个 房间 不 能 同时 成 为 一 个 教室 和 一 个 实验 室 。 没 有 其 他 类 型 的 房间 包含 在 这 个 系统 内 。 
根据 下 面 的 情况 开发 一 个 EER 模型 ， 可 以 使 用 传统 的 EER 符号 、Visio 的 符号 或 者 子 类 型 在 超 类 
型 中 的 符号 如 你 的 指导 老师 所 指定 的 那样 : 
Wally Los Gatos 和 他 的 合作 伙伴 Henry Chordate 一 起 创建 了 一 个 新 的 有 限 责 任 合伙 公司 
“Fin and Finicky 安全 咨询 公司 " ,Fin and Finicky 为 企业 提供 咨询 服务 ， 满 足 它 们 的 安全 上 的 需求 。 
你 被 Wally 和 Henry 雇佣 去 设计 一 个 数据 库 管 理 系统 ， 用 来 帮助 他 们 管理 生意 。 
由 于 最 近 的 业务 增长 ，Fin and Finicky 决定 自动 化 它 的 客户 跟踪 系统 。 你 和 你 的 团队 已 经 做 
了 一 些 初 步 的 分 析 ， 并 提出 了 下 面 的 实体 、 属 性 和 业务 规则 集合 : 
顾问 
一 共有 两 种 类 型 的 顾问 : 业务 顾问 和 技术 顾问 。 业 务 顾 问 主 要 与 业务 打交道 ， 为 了 第 一 时 间 
决定 客户 的 安全 需要 并 提供 一 个 实际 需 执 行 的 服务 的 预算 。 技 术 顾 问 根据 业务 顾问 制定 的 业务 说 
明 执 行 服务 。 
业务 顾问 的 属性 如 下 : Employee ID (标识 符 )，Name，Address (由 Street、City、State 和 Zip 
Code 组 成 )，Telephone，Date Of Birth，Age，Business Experience (由 Number of Years、Type of Business 
和 Degrees Received 组 成 )。 
技术 顾问 的 属性 如 下 : Employee ID (标识 符 )，Name，Address (由 Street、City、State 和 
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Zip Code 组 成 )，Telephone，Date Of Birth, Age, Technical Skills, Degrees Received。 
客户 

客户 一 般 是 一 些 需 求 咨询 服务 的 企业 。 客 户 的 属性 有 Customer ID (标识 符 )，Company 
Name，Address ( 由 Street、City、State 和 Zip Code 组 成 )，Contact Name, Contact Title，Contact 
Telephone, Business Type, Number of Employee。 
地 点 

客户 通常 可 以 有 多 个 地 点 。 地 点 的 属性 有 Customer ID (标识 符 )，Location ID (对 于 每 个 
Customer ID 是 唯一 的 )，Address (由 Street、City 、State 和 Zip Code 组 成 )，Telephone，Bnuilding 
Sizea 
服务 

一 个 安全 服务 被 一 个 客户 在 一 个 或 者 多 个 地 点 所 执行 。 在 执行 服务 前 ， 首 先 要 准备 好 预算 。 
服务 的 属性 有 Service ID (标识 符 )、Description、Cost、Coverage 和 Clearance Required。 
额外 的 业务 规则 

除 之 前 列 出 的 实体 之 外 ， 下 面 一 些 信 息 也 需要 被 存 进 表 中 并 显示 在 模型 上 。 它 们 可 能 是 实 
体 ， 不 过 也 反映 出 多 个 实体 之 间 的 联系 : 

e 预算 ， 具 有 特征 Date、Amount、Business Consultant、Services 和 Customer。 

e 已 执行 的 服务 ， 具 有 特征 Date 、Amount、Technical Consultant、Services 和 Customer。 

为 了 构建 EER 图 ， 可 以 做 以 下 假设 : 

一 个 客户 可 能 有 很 多 顾问 提供 很 多 服务 。 你 希望 不 仅 能 够 记录 实际 执行 的 服务 ， 还 能 记录 所 
有 提供 的 服务 。 因 此 ， 客 户 、 服 务 和 顾问 之 间 应 该 有 两 种 联系 ， 一 种 展示 已 经 执行 的 服务 ， 一 种 
展示 提供 的 服务 ， 作 为 预算 的 一 部 分 。 
根据 问题 与 练习 14 所 构建 的 EER 图 ， 对 图 中 的 每 个 实体 类 型 、 属 性 和 联系 给 出 相应 的 定义 。 
根据 下 面 的 场景 画 一 个 EER 图 : 

你 在 为 一 个 大 型 的 乡村 俱乐部 工作 。 这 个 乡村 俱乐部 希望 有 一 个 数据 库 能 保存 它 的 所 有 会 员 
和 客人 。 对 于 每 一 个 会 员 ， 人 和 俱乐部 记录 邮件 、 电 话 联系 信息 、 姓 名 和 会 员 号 。 当 你 加 入 这 个 俱 乐 
部 时 ， 你 可 以 成 为 普通 会 员 (你 会 有 一 年 打 两 次 高 尔 夫 球 的 机 会 ， 同 时 有 去 游泳 池 和 健身 房 的 特 
权 )， 或 者 成 为 网 球 会 员 (你 会 有 普通 会 员 的 所 有 特权 ,并 且 可 以 使 用 网 球场 和 一 年 打 四 次 高 尔 夫 
球 的 权利 )， 或 是 高 尔 夫 会 员 (你 会 有 网 球 会 员 的 所 有 特权 ,并 目 一 年 可 以 不 限 次 数 地 使 用 高 尔 夫 
球场 地 )。 这 个 数据 库 希 望 能 记录 一 个 会 员 (所 有 高 尔 夫 会 员 可 以 无 限制 地 使 用 高 尔 夫 球 场地 ， 而 
其 他 会 员 使 用 是 有 限制 的 ) 使 用 高 尔 夫 球 场 的 频率 和 一 个 会 员 能 给 俱乐部 带 来 多 少 客 人 的 数据 。 
所 有 会 员 都 有 邀请 其 他 客人 的 特权 。 俱 乐 部 通过 给 以 客人 身份 来 过 俱乐部 并 居住 在 本 州 的 人 发 邮 
件 ， 希望 吸引 新 的 会 员 。 邮 件 包括 客人 曾经 访问 俱乐部 的 信息 ( 即 访问 时 间 以 及 每 次 访问 是 哪 位 
会 员 带 过 来 的 )。 一 旦 一 个 人 成 为 任何 类 型 的 会 员 , 他 /她 之 前 作为 客人 的 信息 就 不 青 重要 了 。 
根据 下 面 的 场景 画 一 个 EER 图 : 

TomKat 娱乐 公司 是 一 家 连锁 影院 ， 这 个 影院 的 所 有 者 通常 是 以 前 的 夫妻 演员 ， 他 们 因为 一 
些 原因 不 能 够 再 从 事 表演 工作 。 所 有 者 希望 有 一 个 数据 库 能 记录 在 一 天 的 不 同时 候 ， 公 司 的 每 个 
连锁 影院 的 每 个 荧 幕 正在 播放 或 者 已 经 播放 了 什么 。 一 个 影院 (由 Theater ID 进行 标识 ， 男 有 属 
性 影院 名 称 和 地 点 ) 会 有 一 个 或 多 个 菊 幕 来 播放 各 种 电影 。 在 每 一 个 影院 中 ， 每 一 个 菊 幕 都 由 其 
荧 幕 号 码 进行 标识 ， 并 有 可 供 观 影 的 容纳 座位 数 的 属性 。 电 影 根 据 每 天 的 时 间 片 安排 播放 。 每 一 
个 荧 幕 在 不 同 的 日 子 都 有 不 同 的 时 间 片 〈 即 一 家 影院 的 所 有 荧 幕 并 不 是 都 在 同样 的 时 刻 播放 电影 ， 
甚至 在 不 同 的 日 子 ， 同 样 的 荧 幕 同样 的 电影 也 可 能 在 不 同 的 时 间 播 放 )。 对 于 每 个 时 间 片 ， 影 院 
所 有 者 希望 知道 每 个 时 间 片 的 终止 时 间 (假设 每 个 时 间 片 的 开始 时 间 和 中 止 时 间 都 在 一 天 以 内 )、 
在 这 个 时 间 片 的 观 影 人 数 和 这 个 时 间 片 影片 的 价格 。 每 一 个 影片 (类 型 可 以 是 预告 片 、 故 事 片 或 
者 是 商业 片 ) 由 Movie ID 进行 标识 ， 并且 可 以 被 属性 片 名 、 时 长 和 类 型 ( 即 预告 片 、 故 事 片 或 商 
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业 片 ) 所 描述 。 在 每 一 个 时 间 片 ， 有 一 个 或 者 多 个 电影 上 映 。 影 院 所 有 者 同样 想 记 录影 片 播放 的 
顺序 (例如 在 一 个 时 间 片 内 先 有 两 部 预告 片 ， 然 后 跟着 两 部 商业 片 ， 再 来 一 部 上 故事片， 最 后 是 另 


外 一 部 商业 片 )。 
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应 用 开发 趋势 的 网 站 ,一 个 关于 信息 系统 开发 实践 的 领先 的 出 版 物 。 


www.brsolutions.com ”商业 规则 解决 方案 网 站 ， 这 家 公司 是 Ronald Ross 的 咨询 公司 ， 同 时 是 业务 规 
则 开发 方法 的 领导 者 。 也 可 以 登录 www.BRCommunity.com， 这 是 一 个 针对 对 业务 规则 感 兴趣 的 人 


www.businessrulesgroup.org ”是 商业 规则 群 组 网 站 ， 前 GUIDE International 的 一 部 分 ， 主 要 致力 于 


定义 和 支持 业务 规则 标准 : 


www.databaseanswers.org/data_models 


是 一 个 引人入胜 的 网 站 ， 它 展示 了 为 各 种 各 样 的 应 用 和 组 


组 设计 的 超过 100 个 E-R 图 样 例 。 因 为 有 丰富 的 符号 被 使 用 ， 所 以 这 是 一 个 学 习 E-R 图 各 种 类 型 的 


符号 的 好 网 站 。 


www.kpiusa.comshi 


是 Knowledge Partners International 的 主页 ， 


由 Barbara von Halle 创建 。 这 个 网 
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站 有 关于 业务 规则 的 一 些 有 趣 的 案例 和 有 关 业 务 规则 的 白皮书 。 

http://researchlibrary.theserverside.net/detaillRES/1214505974_136.html 是 Steve Hoberman 的 
“ Modeling Unstructured Data ”这 篇 论文 的 链接 。 非 结构 的 数据 (例如 电子 邮件 、 图 像 和 声音 ) 是 数 
据 库 中 一 个 新 兴 的 方向 ， 其 中 有 很 多 关于 非 结构 数据 的 数据 建 模 的 专题 讨论 。 

www.tdan.com 是 The Data Administration Newsletter 的 网 站 ,通常 发 布 一 些 新 的 文章 、 专 题 报道 以 
及 很 多 数据 建 模 和 管理 主题 。 

www.teradatauniversitynetwork.com Teradata University Network 的 网 站 ， 是 一 个 有 很 多 有 关 数 据 库 
管理 和 相关 主题 信息 的 免费 资源 网 站 。 登 录 这 个 网 站 ， 搜 索 “entity relationship ”可 以 看 到 很 多 与 
EER 数据 建 模 相 关 的 文章 和 项 目 。 
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第 三 部 分 包括 第 4 章 和 第 5 章 。 

在 数据 库 开发 分 析 阶 段 的 结尾 ， 系 统 和 数据 库 分 析 专 家 对 数据 存储 和 访问 需求 有 
了 相当 清楚 的 理解 。 然 而 ， 在 分 析 阶 段 对 数据 模型 的 开发 明显 地 避免 了 数据 库 技术 的 
束缚 。 在 实现 一 个 数据 库 之 前 ， 概 念 数据 模型 必须 被 映射 成 一 个 与 所 使 用 的 数据 库 管 
理 系 统 相 兼容 的 数据 模型 。 

数据 库 设 计 工 作 就 是 把 分 析 阶 段 开 发 的 数据 存储 的 需求 转换 成 指导 数据 库 实现 的 
规范 。 规 范 有 以 下 两 种 形式 : 

1 ) 届 辑 规范 ， 它 将 概念 需求 和 与 某 个 数据 库 管 理 系统 相关 联 的 数据 模型 联系 
起 来 。 

2 ) 物理 规范 ， 给 出 作为 数据 库 实 现 的 输入 的 所 有 数据 存储 的 参数 。 在 这 个 阶段 ， 
用 数据 定义 语言 来 定义 一 个 数据 库 。 

第 4 草 阅 述 了 逻辑 数据 库 的 设计 ， 并 着 重 强 调 了 关系 数据 模型 。 逻 辑 数 据 库 的 设 
计 是 将 概念 数据 模型 (在 第 2、3 章 中 阅 述 ) 转换 成 逻辑 数据 模型 的 过 程 。 今 天 使 用 的 
大 多 数 数据 库 管理 系统 都 是 基于 关系 数据 模型 的 ， 所 以 这 种 数据 模型 是 我 们 讨论 的 逻 
辑 数 据 库 设 计 的 基础 。 

在 第 4 章 中 ,我们 首先 为 这 个 模型 定义 一 些 重要 的 术语 和 概念 ， 包 括 关系 、 主 
键 、 代 理 主键 、 外 键 、 异 常 、 范 式 、 规 范 化 、 函 数 依赖 、 部 分 函数 依赖 和 传递 依赖 。 
接 下 来 ， 我 们 描述 并 图 示 了 将 E-R 模型 转换 成 关系 模型 的 过 程 。 有 许多 建 模 工具 都 支 
持 这 种 转换 ， 然 而 ,理解 其 基本 原理 和 程序 很 重要 。 接 下 来 ， 我们 详细 描述 和 图 示 规 
范 化 重要 概念 (设计 结构 良好 的 关系 的 过 程 )。 最 后 ,我 们 阐述 怎样 将 分 散在 一 个 大 工 
程 团队 中 不 同 工 作 组 的 还 辑 设计 活动 的 关系 加 以 合并 ， 同 时 避免 此 过 程 中 可 能 发 生 的 
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常见 错误 。 

第 5 章 讨 论 的 物理 数据 库 设计 的 作用 是 将 数据 的 还 辑 描 述 转换 成 存储 和 检索 数据 
的 技术 规范 ， 目 的 是 创建 一 个 有 良好 性 能 并 能 保证 数据 库 完 整 性 、 安 全 性 和 可 恢复 性 
的 数据 存储 设计 。 编 程 人 员 和 其 他 涉及 信息 系统 构建 的 人 员 在 实现 阶段 都 会 用 到 物理 
数据 库 设 计 的 技术 规范 ， 这 将 在 第 6 章 到 第 9 章 进行 讨论 。 

在 第 5 章 中 ,将 学 习 物 理 数 据 库 设计 的 关键 术语 和 概念 ， 包 括 数 据 类 型 、 页 、 指 
针 、 去 规范 化 、 索 引文 件 组 织 和 哈 希 文件 组 织 ; 将 学 习 设 计 开 发 高 效 物理 数据 库 的 基 
础 步骤 ; 将 学 习 存 储 属 性 值 的 候选 和 如 何在 这 些 候选 中 进行 挑选 ; 将 学 习 为 什么 规范 
化 的 表格 不 能 形成 最 好 的 物理 数据 文件 ， 如 果 必 要 的 话 ， 如 何 去 规 范 化 数据 来 达到 数 
据 检 索 速 度 的 提升 ; 将 了 解 不 同文 件 的 组 织 和 不 同类 型 的 索引 ， 这 对 加 速 数据 检索 很 
重要 。 另 外 ， 还 将 学 习 提 高 数据 质量 的 物理 数据 库 设 计 候 选 将 如 何 影响 验证 财务 报告 
准确 性 的 过 程 。 在 今天 ， 由 于 政府 的 相关 规定 ， 如 Sarbanes-Oxley， 也 由 于 人 们 对 高 
数据 质量 具有 更 高 的 商业 意义 的 逐渐 认 知 ， 因 此 这 些 都 是 必要 的 。 

必须 小 心地 进行 物理 数据 库 的 设计 ， 因 为 这 个 阶段 做 的 决定 对 数据 的 可 获得 性 、 
响应 时 间 、 安 全 性 、 用 户 友 好 度 、 信 息 质 量 和 同样 重要 的 信息 系统 的 设计 因素 都 有 重 
要 影响 。 
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学 习 目 标 
学 完 本 章 后 ， 读 者 应 该 能 够 : 
。 简明 地 定义 以 下 关键 术语 : 关系 ,主键 ,复合 键 ， 外 键 ， 空 值 ， 实 体 完整 性 规则 ， 参 
照 完 整 性 约束 ， 完 整 结构 化 关系 ,异常 ， 代 理 主键 ,递归 外 键 ， 规范 化 ， 范 式 ， 函 数 
依赖 ， 决 定 因子 ， 候 选 键 ， 第 一 范式 ， 第 二 范式 ， 部 分 函数 依赖 ， 第 三 范式 ， 传 递 依 
赖 ， 同 义 词 ， 别 名 ， 多 义 词 。 
。 列举 关系 的 5 个 性 质 。 
。 列 举 候选 键 的 两 个 基础 性 质 。 
。 给 出 下 列 名 词 的 简明 定义 : 第 一 范式 、 第 二 范式 、 第 三 范式 。 
。 简单 描述 在 关系 合并 时 可 能 产生 的 4 个 问题 。 
。 将 E-R (或 EER) 图 转换 成 逻辑 上 对 等 的 关系 集 。 
。 创建 满足 实体 完整 性 和 参照 完整 性 约束 的 关系 表 。 
e。 使 用 规范 化 将 一 个 有 异常 的 关系 分 解 成 完整 结构 化 的 关系 。 
引言 
这 一 章 描述 逻辑 数据 库 设 计 ， 着 重 强调 关系 数据 模型 。 逻 辑 数 据 库 设 计 是 将 概念 数据 模 
型 (在 第 2、3 章 中 已 阐述 ) 转换 成 软 辑 数据 模型 的 过 程 ， 这 种 钦 辑 数据 模型 是 与 特定 类 型 
的 数据 库 技术 一 致 且 兼容 的 。 一 个 经 验 丰 富 的 数据 库 设 计 者 如 果 知 道 了 将 要 使 用 的 数据 库 技 
术 的 类 型 ， 将 会 把 逻辑 数据 库 设 计 和 概念 数据 建 模 同时 进行 。 然 而 ， 重 要 的 是 需要 将 这 两 个 
分 隔 成 不 同步 又 ， 这 样 就 可 以 对 数据 库 开 发 的 每 个 重要 部 分 集中 注意 力 。 概 念 数据 建 模 是 理 
解 组 织 一 一 获得 正确 的 需求 。 逻 辑 数 据 库 设计 是 创建 稳定 的 数据 库 结构 一 一 用 技术 语言 正确 
地 表达 需求 。 二 者 都 是 很 重要 的 步骤 ， 需 要 细心 地 实现 。 
尽管 也 有 其 他 的 逻辑 数据 模型 ， 但 是 ， 在 本 章 强调 关系 数据 模型 有 两 个 重要 的 原因 。 首 
先 ， 关 系数 据 模型 是 迄今 为 止 数据 库 应 用 中 被 最 广泛 使 用 的 数据 模型 。 其 次 ， 一 些 关系 模型 
的 逻辑 数据 库 设计 的 原则 也 适用 于 其 他 逻辑 模型 。 
在 之 前 的 章节 中 ,已 经 通过 一 些 简单 的 例子 介绍 了 关系 数据 模型 。 然 而 ， 重 要 的 是 ， 
与 概念 数据 模型 不 同 ， 关 系数 据 模型 是 多 辑 数据 模型 的 一 种 形式 。 因 此 ，E-R 数据 模型 不 
是 关系 数据 模型 ， 不 符合 完整 的 结构 化 关系 数据 模型 的 规则 ， 即 本 章 所 要 阐述 的 规范 化 
(normalization )。 这 并 没有 很 大 影响 ， 因 为 开发 E-R 模型 的 目的 是 理解 数据 需求 和 数据 的 业 
务 规则 ， 而 不 是 为 查询 数据 库 处 理 构造 数据 ， 构 造 数据 是 逻辑 数据 库 设计 的 目的 。 
本 章 中 ,首先 定义 关系 数据 模型 的 一 些 重要 术语 和 概念 。( 通 常用 关系 模型 来 称呼 关系 
数据 模型 。) 接 下 来 介绍 并 说 明 将 EER 模型 转换 为 关系 模型 的 过 程 。 今 天 ， 在 技术 层面 上 ， 
有 许多 CASE 工具 都 支持 这 个 转换 。 然 而 ， 理 解 内 部 的 原理 和 程序 很 重要 。 接 着 会 详细 描述 
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规范 化 的 概念 。 规 范 化 是 设计 完整 结构 化 关系 的 过 程 ， 也 是 关系 模型 逻辑 设计 的 重要 组 成 部 
分 。 最 后 ,介绍 怎样 合并 关系 ， 同 时 避免 在 此 过 程 中 通常 可 能 发 生 的 常见 错误 。 

逻辑 数据 库 设计 的 任务 是 将 概念 设计 (代表 了 企业 对 数据 的 需求 ) 转换 为 逻辑 数据 库 设 
计 ， 使 其 能 够 通过 选 定 的 数据 库 管 理 系统 实现 。 最 终 的 数据 库 必 须 能 够 满足 用 户 对 数据 共 
享 、 灵 活性 和 易 访 问 性 的 要 求 。 本 章 提 出 的 概念 对 于 理解 数据 库 开 发 过 程 是 不 可 缺少 的 。 


4.1 关系 数据 模型 


关系 数据 模型 是 1970 年 由 IBM 的 E. F. Codd 首次 提出 (Codd，1970 )。 早 期 的 两 个 研 
究 项 目 是 为 了 证 明 关 系 模型 的 可 行 性 和 开发 原型 系统 。 第 一 个 研究 (在 IBM 的 San Jose 研 
究 实 验 室 ) 促成 了 20 世纪 70 年 代 末 期 R 系统 (原型 关系 型 DBMS[RDBMS]) 的 开发 。 第 二 
个 研究 (加 州 大 学 伯克利 分 校 ) 促成 了 Ingres 的 开发 ， 其 中 Ingres 是 学 术 导 向 的 RDBMS。 
大 约 在 1980 年 ， 在 众多 销售 商 中 出 现 了 商业 RDBMS 产品 。( 请 参阅 本 书 的 RDBMS 和 其 他 
DBMS 销售 商 的 网 站 链接 ,) 今天 ，RDBMS 已 经 成 为 数据 库 管 理 的 主要 技术 ， 并 且 从 智能 
手机 和 个 人 电脑 到 主机 ， 有 数 以 百 计 的 RDBMS 产品 可 使 用 。 


4.1.1 基本 定义 


关系 数据 模型 以 表格 形式 表示 数据 。 关 系 模型 基于 数学 理论 建立 ， 因 此 有 坚实 的 理论 基 
础 。 然 而 ， 我 们 只 需要 一 些 简单 的 概念 就 能 描述 关系 模型 。 因 此 ， 它 很 容易 理解 ， 甚 至 被 
那些 不 熟悉 基本 理论 的 人 使 用 。 关 系数 据 模 型 由 以 下 三 个 部 分 组 成 (Fleming 和 von Halle， 
1989 ): 

1 ) 数据 结构 ”数据 由 表格 的 行 和 列 的 形式 组 织 。 

2 ) 数据 处 理 功能 强大 的 操作 可 以 用 来 处 理 存 储 在 关系 中 的 数据 ( 通 和 常用 SQL 语言 
实现 )。 

3 ) 数据 完整 性 ”模型 拥有 可 以 指定 业务 规则 的 机 制 ， 该 业务 规则 要 求 在 操作 时 保持 数 
据 完 整 性 。 


EMPLOYEE1 


Name DeptName 


Margaret Simpson Marketing 


Allen Beeton Accounting 
Chris Lucero Info Systems 
Lorenzo Davis Finance 
Susan Martin Marketing 





图 4-1 关系 EMPLOYEE1 及 其 样本 数据 


在 这 一 节 将 讨论 数据 结构 和 数据 完整 性 。 数 据 操作 在 第 6、7、8 章 中 讨论 。 

1. 关系 数据 结构 

关系 ( relation) 是 指 命名 的 二 维 表格 数据 。 关 系 (或 表格 ) 由 一 些 命 名 的 列 和 者 干 未 命 
名 的 行 组 成 。 属 性 (正如 其 在 第 2 章 的 定义 ) 是 关系 中 命名 的 列 。 关系 中 的 每 一 行 对 应 一 
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条 记录 ， 其 中 包括 单个 实体 的 数据 (属性 ) 值 。 图 4-1 是 一 个 名 称 为 EMPLOYEE1 的 关系 。 
这 个 关系 包括 了 以 下 几 个 描述 员工 的 属性 : EmpID、Name、DeptName 和 Salary。 表 格 中 
的 5 行 数据 分 别 对 应 5 个 员工 。 理 解 图 4-1 中 的 样本 数据 是 为 了 说 明 关 系 EMPLOYEE1 的 
结构 这 一 点 很 重要 ; 它们 本 身 不 是 关系 的 一 部 分 。 因 为 即使 在 图 中 插入 男 一 行 数据 或 者 更 
新 已 存在 行 的 任何 数据 ， 它 仍然 是 关系 EMPLOYEE1。 删 除 一 行 数据 也 不 会 改变 关系 。 事 
实 上 ， 删 除 图 4-1 中 的 所 有 数据 ， 关 系 EMPLOYEE1 仍然 存在 。 换 句 话 说， 图 4-1 是 关系 
EMPLOYEE1 的 一 个 实例 。 

我 们 可 以 用 将 属性 名 放 在 关系 名 后 面 (括号 中 ) 这 种 简写 的 标记 法 来 表示 关系 的 结构 。 
例如 ， 对 于 关系 EMPLOYEE1， 有 


EMPLOYEE1(EmplD, Name, DeptName, Salary) 


2. 关系 的 键 

我 们 必须 能 够 根据 存储 在 关系 的 一 行 中 的 数据 值 来 存储 和 检索 这 一 行 数 据 。 为 了 达到 
这 个 目的 ， 每 个 关系 都 必须 有 主键 。 主 键 ( primary key) 是 指 关 系 中 能 唯一 识别 每 一 行 的 一 
个 或 一 组 属性 。 我 们 为 属性 名 加 上 下 划 线 来 表示 主键 。 例 如 ， 关 系 EMPLOYEE1 的 主键 是 
EmpID。 注 意 ， 这 个 属性 在 图 4-1 中 有 下 划 线 。 在 简写 标记 法 中 ， 用 如 下 方式 来 表示 这 个 
关系 : 

EMPLOYEE1(EmpID, Name, DeptName, Salary) 


主键 的 概念 与 第 2 章 中 定义 的 术语 标识 符 〈identifier) 有 关 。 在 E-R 图 中 表示 为 实体 标 
识 符 的 属性 或 属性 集 有 可 能 组 成 了 表示 该 实体 的 关系 的 主键 。 但 也 有 例外 : 比如 ， 关 联 实体 
不 是 必须 有 标识 符 ， 弱 实体 的 (部 分 ) 标识 符 仅 仅 是 其 主键 的 一 部 分 。 另 外 ， 实 体 的 多 个 属 
性 可 能 是 关联 关系 的 主键 。 所 有 这 些 情 形 都 将 在 本 章 中 一 一 说 明 。 

组 合 键 (composite key) 是 由 多 个 属性 组 成 的 主键 。 例 如 ， 关 系 DEPENDENT 的 主键 由 
EmpID 和 DependentName 组 成 。 本 章 中 还 会 给 出 几 个 组 合 键 的 例子 。 

我 们 经 常 需要 在 两 个 表格 或 关系 之 间 建 立 联系 ， 这 是 通过 使 用 外 键 来 完成 的 。 外 键 
( foreign key) 是 指 关 系 中 的 一 个 (也 可 能 是 复合 ) 属性 同时 是 男 一 个 关系 中 的 主键 。 例 如 ， 
考虑 两 个 关系 EMPLOYEE1 和 DEPARTMENT: 


EMPLOYEE1(EmplD, Name, DeptName, Salary) 

DEPARTMENT(DeptName, Location, Fax) 

DeptName 属性 是 关系 EMPLOYEE1 中 的 外 键 ， 它 可 以 让 任何 一 个 员工 与 其 登记 的 部 门 
信息 联系 起 来 。 有 些 作 者 在 外 键 下 方 加 上 虚线 ， 像 这 样 : 


在 本 章 的 剩余 部 分 将 给 出 很 多 外 键 的 例子 ， 并 在 4.2.3 节 讨 论 外 键 的 性 质 。 

3. 关系 的 性 质 

我 们 将 关系 定义 为 二 维 表格 数据 。 然 而 ， 并 不 是 所 有 的 表格 都 是 关系 。 关 系 的 几 个 性 质 
可 以 将 其 与 非 关系 表格 区 分 开 来 。 我 们 将 这 些 性 质 概 括 如 下 : 

1 ) 数据 库 中 的 每 个 关系 (或 表格 ) 都 有 唯一 的 名 称 。 

2 ) 每 行 与 每 列 交叉 点 的 条 目 是 原子 的 (或 单 值 的 )。 表 中 每 个 属性 在 每 行 只 有 一 个 值 ; 
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关系 中 没有 多 值 属性 。 
3 ) 每 一 行 都 是 唯一 的 ; 关系 中 没有 相同 的 两 行 。 
4 ) 每 个 表格 中 的 每 个 属性 (或 列 ) 都 有 唯一 的 名 称 。 
5 ) 列 的 顺序 (从 左 到 右 ) 无 关 紧 要 。 改 变 关系 中 列 的 顺序 不 会 更 改 关 系 的 意义 或 影响 


关系 的 使 用 。 
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6 ) 行 的 顺序 (从 上 到 下 ) 无 关 紧 要 。 和 列 一 样 ， 关 系 中 行 的 顺序 可 以 被 更 改 为 任何 顺序 。 
4. 移 除 表 中 的 多 值 属性 
前 面 列 举 的 关系 的 第 2 条 性 质 说 明 ， 关 系 中 不 允许 存在 多 值 属 性 。 因 此 ， 含 有 一 个 或 
多 个 多 值 属 性 的 表格 不 是 关系 。 例 如 ， 图 4-2a 显示 了 关系 EMPLOYEE1 的 员工 信息 ， 其 中 
加 入 了 员工 可 能 参加 的 课程 信息 。 因 为 员工 可 能 参加 了 不 止 一 门 课程 ， 所 以 CourseTitle 和 
DateCompleted 是 多 值 属性 。 例 如 ，EmpID 为 100 的 员工 参加 了 两 门 课程 。 如 果 一 个 员工 没 
有 参加 任何 课程 ， 那么 CourseTitle 和 DateCompleted 属性 就 为 空 值 。( 见 EmpID 为 190 的 员 


工 信 息 。) 


图 4-2b 中 给 出 了 如 何 利 用 相关 数据 值 填 补 空白 信息 的 方法 消除 多 值 属性 。 从 结果 来 看 ， 
图 4-2b 中 的 表格 只 有 单 值 属性 ， 并 且 满 足 关 系 的 原子 性 。 我 们 将 其 命名 为 EMPLOYEE2， 
以 便 与 EMPLOYEE1 区 别 开 来 。 然 而 ， 如 你 所 见 ， 这 个 新 关系 也 有 一 些 不 好 的 性 质 。 


EMPLOYEE2 


Name 


Margaret Simpson 


Alan Beeton 
Chris Lucero 


Lorenzo Davis 


Susan Martin 


Name 


Margaret Simpson 
Margaret Simpson 


Alan Beeton 
Chris Lucero 
Chris Lucero 
Lorenzo Davis 
Susan Martin 
Susan Martin 


4.1.2 样本 数据 库 
一 个 关系 数据 库 可 以 由 任何 数量 的 关系 组 成 。 模 式 (在 第 1 章 中 定义 ) 是 对 整个 数据 


DeptName 
Marketing 


Accounting 


Info Systems 


Finance 
Marketing 


Salary 
48,000 


52,000 
43,000 


55,000 
42,000 


a) 具有 重复 分 组 的 表格 


DeptName 


Marketing 
Marketing 
Accounting 
Info Systems 
Info Systems 
Finance 
Marketing 
Marketing 


Salary 


48,000 
48,000 
52,000 
43,000 
43,000 
55,000 
42,000 
42,000 


b) 关系 EMPLOYEE2 


图 4-2 ”消除 多 值 属性 


CourseTitle 


SPSS 
Surveys 
Tax Acc 
Visual Basic 
C++ 


SPSS 
Java 





CourseTitle 


SPSS 
Surveys 
Tax Acc 
Visual Basic 
C++ 


SPSS 
Java 





DateCompleted 


6/19/201 X 
10/7/201X 
12/8/201 X 
1/12/201 X 
4/22/201 X 


6/16/201 X 
8/12/201 X 


DateCompieted 


6/19/201 X 
10/7/201 X 
12/8/201 X 
1/12/201 X 
4/22/201 X 


6/19/201 X 
8/12/201 X 
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库 的 逻辑 结构 的 描述 ， 我 们 通过 模式 来 说 明 数 据 库 的 结构 。 以 下 是 两 种 表示 模式 的 常用 
方法 : 

1 ) 简短 的 文本 叙述 ， 其 中 每 个 关系 都 有 名 称 ， 其 属性 名 跟 在 其 后 的 括号 中 。( 见 本 章 前 
面 定义 的 关系 EMPLOYEE1 和 DEPARTMENT,) 

2 ) 图 表 表 示 法 ， 每 个 关系 由 包含 其 属性 的 矩形 来 表示 。 

文本 叙述 的 优势 是 较为 简便 。 然 而， 图 表 表 示 法 能 更 好 地 表示 参照 完整 性 约束 (你 将 很 
快 见 到 )。 在 这 一 节 ， 我 们 使 用 两 种 方法 表示 模式 ， 以 便于 二 者 的 比较 。 

图 4-3 显示 了 Pine Valley 家 具 公 司 的 四 个 关系 的 模式 。 这 四 个 关系 分 别 为 CUSTOMER.、 
ORDER、ORDER LINE 和 PRODUCT。 关 系 中 的 主键 用 下 划 线 表示 ， 其 他 的 属性 都 在 关系 中 
给 出 。 本 章 后 面 还 展示 了 如 何 使 用 规范 化 方法 来 设计 这 些 关 系 。 

这 些 关 系 的 文本 描述 如 下 : 


CUSTOMER(CustomeriD, CustomerName, CustomerAddress, 
CustomerCity, CustomerState, CustomerPostalCode) 

ORDER LINE(OrderlD, ProductlD, OrderedQuantity) 

PRODUCT(ProductID, ProductDescription, ProductFinish, 
ProductStandardPrice, ProductLinelD) 





CUSTOMER 


Customenp| CustomerName CustomerAddress | CustomerCity’ | CustomerState |CustomerPostalCode 


ORDER 


ORDER LINE 


OrderlD ProductlD | OrderedQuantity 


PRODUCT 





* 为 了 简化 起 见 ， 属 性 不 在 图 2-21 中 。 


图 4-3 4 个 关系 模式 (Pine Valley 家 具 公 司 ) 


ORDER LINE 的 主键 是 组 合 键 ， 由 OrderID 和 ProductID 属性 组 成 。CustomerID 是 关 
系 ORDER 的 外 键 ， 它 可 以 让 用 户 将 订单 与 提交 该 订单 的 客户 联系 起 来 。 关 系 ORDER LINE 
有 两 个 外 键 : OrderID 和 ProductID ， 它 们 可 以 让 用 户 将 订单 上 的 每 一 行 与 其 对 应 的 订单 和 
产品 联系 起 来 。 

图 4-4 显示 了 该 数据 库 的 一 个 实例 。 该 图 显示 了 四 个 表格 的 样本 数据 。 注 意 观 察 外 键 是 
如 何 将 各 个 表格 联系 起 来 的 。 使 用 样本 数据 来 建立 关系 模式 的 实例 有 以 下 四 个 原因 : 

1 ) 样本 数据 可 以 让 我 们 在 不 关心 设计 的 情况 下 验证 假设 。 

2 ) 样本 数据 为 检查 自己 设计 的 正确 性 提供 了 简单 的 方式 。 

3 ) 样本 数据 可 以 促进 自己 与 用 户 之 间 在 讨论 设计 方面 的 交流 。 

4 ) 样本 数据 可 以 用 来 开发 原型 应 用 和 测试 查询 。 
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py | 


CustomerName = » CustomeAddress . CustofmerpcstslCode - < 
1 Contemporary Castals & 13555 Hines Blvd 32601.2871 | 
2 Value Furniture 35145 SW., 1Nh $Y. 
3 Home TurnishiNnes 3900 Allard Ave, 
4 Easterr Furniture 1925 Baitline Rd， 
5 IMArEssionNS 5585 Wesiott Ct. 
5 Furmture Gallory 325 Fiatiron Dr， 
7 Period FumMmitore 
8 Calformia Classics 
3 Mant HcCasuval Fumiture 
10 Seminote interiors 
1 American Eyro Ufestyles 
12 Sattle Creek Furniture 
13 Neritage Fumtshings 
14 Waneohe Hormes 
15 Mountain Scenes 
[Record: -GT mr TH 
| 号 MUST # 所 
国 【order + OrderDate + :CustomerD - ~ 
1012372010 
i012372030 
10/22/2017 
10/27;2010 
10/24/2010 
10/24/2010 
10/2772010 
10730/2010 
i115/20310 
11/5/2010 
了 


BH moduct 7 
PioauctiD » ProductDescription -= productfimish 。 

Bend Tabie Cherry 
2 Cofle Table Neiural Ash 
3 COMpPUter Oesk Natural Asii 
a Enterlalnment Center Natvral Mapila 
5 Writers Deck Cherry 
6 H-Orawer Desk White Ash 
7 ONINg Table Natural AsN 


BComputer De Walhurt 
站 Searth 





图 4-4 关系 模式 的 一 个 实例 (Pine Valley 家 具 公 司 ) 


4.2 完整 性 约束 


关系 数据 模型 包含 了 一 些 类 型 的 约束 或 者 用 来 限制 可 接受 的 数据 值 和 操作 的 规则 ， 其 目 
的 是 有 利于 维护 数据 库 中 数据 的 正确 性 和 完整 性 。 主 要 的 完整 性 约束 有 : 域 约束 、 实 体 完整 
性 和 参照 完整 性 。 


4.2.1 域 约束 


在 一 个 关系 中 ， 一 列 中 出 现 的 所 有 值 都 必须 来 自 于 同一 个 域 。 域 是 指 一 个 属性 的 所 有 可 
能 的 值 。 域 的 定义 通常 包括 以 下 几 个 部 分 : 域名 、 意 义 、 数 据 类 型 、 大 小 (或 长 度 ) 和 允许 
的 值 或 范围 (适当 的 )。 表 4-1 给 出 了 图 4-3 和 图 4-4 中 属性 的 域 定 义 。 


4.2.2 ”实体 完整 性 


实体 完整 性 规则 是 用 来 保证 每 个 关系 都 有 主键 并 且 主 键 的 所 有 值 都 是 合法 的 。 重 要 的 
是 ， 它 保证 了 每 个 主键 属性 都 非 空 。 

在 某 些 情况 下 ， 一 个 属性 不 能 被 分 配 数据 值 。 导 致 这 种 情况 发 生 有 两 种 原因 : 没有 合适 
的 数据 值 或 合适 的 数据 值 未 知 。 例 如 ， 假 设 要 求 你 填写 一 张 雇佣 申请 表 ， 其 中 一 项 为 传真 号 
码 ， 或 要 求 你 填写 前 任 雇主 的 电话 号 码 。 如 果 你 不 记得 这 些 号 码 ， 你 会 将 它们 空 着 ， 因 为 不 
知道 如 何 填写 。 
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在 上 述 情况 中 ， 关系 数据 模型 允许 我 们 将 属性 置 为 空 值 。 空 值 (null) 是 指 当 没有 其 他 
值 合适 或 者 合适 的 值 未 知 时 为 属性 分 配 的 值 。 事 实 上 ， 空 值 并 不 是 一 个 值 ， 它 表示 没有 值 。 
例如 ， 空 值 并 不 是 数字 0 或 者 空 字符 串 。 在 关系 模型 中 加 入 空 值 是 有 争议 的 ， 因 为 有 时 候 
会 导致 异常 结果 ( Date，2003 )。 然 而 ， 关 系 模型 的 发 明 者 Codd 提倡 为 未 知 的 值 使 用 空 值 
(Codd，1990 ) 。 

所 有 人 都 认为 主键 的 值 不 能 为 空 值 。 因 此 ， 实 体 完 整 性 规则 陈述 如 下 : 没有 一 个 主键 属 
性 (或 主键 属性 的 内 容 ) 可 以 为 空 值 。 


4.2.3 ”参照 完整 性 


在 关系 数据 模型 中 ， 表 格 间 通过 使 用 外 键 来 联系 。 例 如 ， 在 图 4-4 中 ， 表 CUSTOMER 
和 表 ORDER 之 间 的 联系 是 通过 定义 ORDER 表 中 的 外 键 CustomerID 来 实现 的 。 这 意味 着 
在 ORDER 表 中 插入 一 行 新 的 数据 之 前 ， 该 订单 中 的 客户 必须 已 存在 于 CUSTOMER 表 中 。 
若 检查 图 4-4 中 表 ORDER 的 每 一 行 ， 将 会 发 现 订单 的 每 个 客户 号 都 已 经 在 CUSTOMER 表 
中 出 现 。 

参照 完整 性 约束 是 维护 两 个 关系 的 行 之 间 一 致 性 的 规则 。 这 个 规则 表明 如 果 一 个 关系 中 
有 一 个 外 键 ， 那 么 每 个 外 键 的 值 必 为 另 一 个 关系 的 主键 值 ， 或 者 该 外 键 值 为 空 。 可 以 检查 
图 4-4 中 的 表格 是 否 符 合 参 照 完 整 性 约束 。 

表 4-1 INVOICE 属性 的 域 定义 


属性 域 
CustomerID 所 有 可 能 的 Customer ID 的 集合 度 为 5 的 字符 串 


E 长 

ee 为 5 的 字条 
CustomerAddress 长 度 为 30 的 字符 串 
CustomerCity 长 度 为 20 的 字符 串 
le 
CustomerPostalCode 所 有 可 能 的 Postal Zip Code 的 集合 长 度 为 10 的 字符 串 
OrderID 长 度 为 5 的 字符 下 
OrderDate 日 期 格式 : 月 /日 /年 
ProductID 长 度 为 5 的 字符 中 


ProductDescription 长 度 为 25 的 字符 串 
ProductFinish 长 度 为 15 的 字符 串 
ProductStandardPrice 货币 : 6 位 数 
OrderedQuantity 整数 ，3 位 数 

关系 模式 的 图 形 化 版 本 为 鉴定 参照 完整 性 约束 是 否 执 行 提供 了 一 个 简单 的 方法 。 图 4-5 
显示 了 图 4-3 中 关系 的 模式 。 每 个 外 键 都 延伸 出 一 个 第 头 指向 其 对 应 的 主键 。 模 式 中 ， 必 须 
为 每 个 箭头 定义 参照 完整 性 约束 。 

怎样 知道 一 个 外 键 是 否 允 许 为 空 值 ” 如 果 每 个 订单 必须 有 一 个 客户 (强制 联系 )， 那 么 
ORDER 关系 中 的 外 键 CustomerID 就 不 能 为 空 值 。 如 果 订 单 和 客户 的 关系 是 可 变 的 ， 那么 外 
键 可 以 是 空 值 。 在 进行 数据 库 设 计时 ， 应 当 将 外 键 属性 是 否 可 以 为 空 值 作为 其 性 质 定 义 好 。 

事实 上 ， 外 键 是 否 可 以 为 空 值 对 于 E-R 图 的 模型 和 其 确定 都 要 比 我 们 至 今 所 给 出 的 复 
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杂 。 人 例如， 如果 删除 一 个 提交 了 订单 的 客户 ， 那 么 订单 数据 将 发 生 什 么 变化 ? 我 们 可 能 更 关 
心 销售 状况 而 不 关心 客户 。 有 三 种 可 能 性 : 

1 ) 删除 相关 的 订单 信息 (也 叫 级 联 删 除 )， 那 么 不 仅 失 去 了 客户 信息 还 失去 了 所 有 销售 
历史 信息 。 

2 ) 直到 所 有 相关 的 订单 信息 都 被 删除 后 ， 才 允许 删除 客户 信息 〈 安 全 检查 )。 

3 ) 在 外 键 中 设置 空 值 (尽管 在 创建 订单 时 必须 有 CustomerID ， 但 之 后 如 果 相 关联 的 客 
户 信息 被 删除 ，CustomerID 可 以 变 为 空 值 )。 


CUSTOMER 


CustomerlID CustomerAddress | CustomerCity | CustomerState | CustomerPostalCode 
ORDER 
OrderDate | CustomerID 









OrderlD 


ORDER LINE 
OrderlD | ProductlD |OrderedQuantity 





PRODUCT 


ProductiD | ProductDescription | ProductFinish | ProductStandardPrice | ProductLinelD 


图 4-5 参照 完整 性 约束 (Pine Valley 家 具 公 司 ) 


在 第 6 章 阐 述 SQL 数据 库 查询 语言 时 ， 我 们 将 看 到 这 三 种 选择 是 如 何 实 现 的 。 实 际 上 ， 
各 种 有 关 数 据 保 留 的 企业 规定 和 各 项 规章 制度 往往 决定 了 什么 数据 能 被 删除 以 及 在 何 时 可 以 
删除 ， 这 也 支配 了 在 各 种 删除 选项 间 的 选择 。 


4.2.4 创建 关系 表 


本 小 节 将 为 图 4-5 中 的 4 个 表格 创建 表 定 义 。 这 些 定义 使 用 的 CREATE TABLE 语句 是 
一 种 SQL 数据 定义 语言 。 实 际 上 ， 这 些 表 都 是 在 数据 库 开 发 过 程 的 后 期 定义 的 。 然 而 ， 本 
章 给 出 的 样本 表格 是 为 了 连续 性 ， 更 重要 的 是 为 了 说 明之 前 介绍 的 完整 性 约束 如 何在 SQL 
中 实现 。 

图 4-6 中 给 出 了 SQL 表格 的 定义 。 为 关系 模式 (图 4-5 ) 中 的 每 个 关系 创建 一 个 表格 。 
之 后 定义 表 的 每 个 属性 。 属 性 的 数据 类 型 和 长 度 都 来 自 域 定义 ( 表 4-1 )。 例 如 ，Customer_ 
T 表 中 的 CustomerName 属性 定义 为 VARCHAR (可 变 字 符 ) 数据 类 型 ， 长 度 为 25。 通 过 指 
定 NOT NULL, 约束 每 个 属性 都 不 能 为 空 值 。 

每 个 表格 的 主键 通过 表格 定义 语句 后 的 PRIMARY KEY 子 句 来 指定 。OrderLine_T 表 给 
出 了 如 何 定 义 复合 属性 的 主键 。 在 这 个 例子 中 ，OrderLine_T 的 主键 由 OrderID 和 ProductID 
组 成 。 四 个 表 中 的 主键 属性 都 被 约束 为 NOT NULL。 这 就 实现 了 前 面 章节 中 描述 的 实体 完 
整 性 约束 。NOT NULL 约束 同样 可 以 用 在 非 主键 属性 上 。 

基于 图 4-5 中 给 出 的 图 形 化 模式 ， 参 照 完 整 性 约束 很 容易 定义 。 每 个 外 键 延伸 出 的 箭头 
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指向 了 相关 联 关系 所 对 应 的 主键 。 在 SQL 表格 定义 中 ，FOREIGN KEY REFERENCES 语句 
对 应 着 每 一 个 箭头 。 因 此 ， 对 于 表 Order_ T， 外 键 CustomerID 参照 了 表 Customer_T 的 主键 
CustomerID。 在 这 个 实例 中 ， 尽 管 外 键 和 主键 有 相同 的 名 字 ， 但 也 无 关 紧 要 。 例 如 ， 外 键 属 
性 名 可 以 用 CustNo 来 代替 CustomerID。 然 而 ， 外 键 和 主键 值 必须 来 自 相 同 的 域 。 


CREATE TABLE Customer 下 
(CustomerlD 
CustomerName 


NUMBER(11,0) 
VARCHAR2(25) 


NOT NULL 
NOT NULL 


CustomerAddress 
CustomerCity 
CustomerState 
CustomerPostalCode 


VARCHAR2(30), 
VARCHAR2(20), 
CHAR(2), 
VARCHAR2(9), 


CONSTRAINT Customer PK PRIMARY KEY(CustomerID )); 


CREATE TABLE Order T 
(OrderlD 
OrderDate 
CustomerlD 


NUMBER(11,0) NOT NULL， 
DATE DEFAULT SYSDATE, 
NUMBER(11,0), 


CONSTRAINT Order PK PRIMARY KEY(OrderlD), 
CONSTRAINT Order FK FOREIGN KEY(CustomerlD) REFERENCES Customer T (CustomerlD)); 


CREATE TABLE Product T 
(ProductID 
ProductDescription 
ProductFinish 


NUMBER(11,0) 
VARCHAR2(50), 
VARCHAR2(20), 
ProductStandardPrice DECIMAL(6,2)， 
ProductLinelD NUMBER(11,0), 
CONSTRAIN TProduct PK PRIMARY KEY(ProductID )); 


NOT NULL， 


CREATETABLE OrderLine T 
(OrderlD NUMBER(11,0) 
ProductiD NUMBER(11,0) 
OrderedQuantity NUMBERI(11,0)， 

CONSTRAINT OrderLine PK PRIMARY KEY(OrderID, ProductIiD), 

CONSTRAINT OrderLine FK 1FOREIGN KEY(OrderID) REFERENCES Order._T (OrderlD), 


CONSTRAINT OrderLine FK 2FOREIGN KEY(ProductID) REFERENCES Product_T (ProductID )); 


NOT NULL， 
NOT NULL， 





图 4-6 SQL 表 定 义 
表 OrderLine_T 有 两 个 外 键 。 表 中 的 外 键 分 别 参 照 的 是 表 Order_T 和 表 Product_T。 


4.2.5 ”完整 结构 化 关系 


为 了 准备 讨论 规范 化 ， 我 们 需要 处 理 以 下 几 个 问题 ， 完整 结构 化 的 关系 由 什么 组 成 ? 直 
观 地 来 说 ， 完 整 结构 化 关系 ( well_structured relation) 包含 最 少 的 元 余 并 且 人 允许 用 户 插入 、 
修改 和 删除 表 中 数据 行 而 不 产生 错误 与 不 一 致 。EMPLOYEE1 (图 4-1 ) 就 是 这 样 的 关系 。 
表 中 每 一 行 数 据 都 描述 了 一 个 员工 的 信息 ， 对 一 个 员工 数据 的 任何 修改 〈 如 更 改 薪水 ) 都 
只 局 限于 表 中 的 一 行 数 据 。 相 反 ，EMPLOYEE2 (图 4-2b) 就 不 是 完整 结构 化 关系 。 如 果 仔 
细 观 察 表 中 的 样本 数据 ， 将 会 发 现 有 相当 多 的 元 余 。 例 如 ， 对 于 员工 100、110 和 150, 其 
EmpID、Name、DeptName 和 Salary 信息 在 两 行 中 都 有 出 现 。 因 此 ， 如 果 员 工 100 的 薪水 
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发 生变 化 ,我们 必须 在 两 行 ( 对 于 某 些 员工 甚至 会 更 多 ) 中 记录 这 种 变化 。 

当 用 户 试 图 更 新 表 中 数据 时 ， 数 据 宛 余 可 能 会 造成 错误 或 不 一 致 ( 称 为 异常 )。 通 常 有 

1 ) 插入 异常 假设 需要 向 表 EMPLOYEE2 中 插入 一 个 新 员工 。 这 个 关系 的 主键 由 
EmpID 和 CourseTitle (之 前 提 到 过 ) 组 成 。 因 此 ,为 了 插入 新 的 一 行 ， 用 户 必 须 提 供 EmpID 
和 CourseTitle 的 值 (因为 主键 不 能 为 空 值 或 不 存在 )。 这 就 是 个 异常 ， 因 为 用 户 理 应 可 以 只 输 
入 员工 数据 而 不 提供 课程 数据 。 

2 ) 删除 异常 ”假设 我 们 需要 从 表 中 删除 140 号 员工 的 数据 。 这 将 导致 失去 该 员工 在 
12/8/201X 完成 了 课程 ( Tax Acc) 这 条 信息 。 事 实 上 ,我们 失去 的 是 该 课程 可 以 在 那 一 天 完 
成 的 信息 。 

3 ) 更 新 异常 ”假设 员工 号 为 100 的 员工 涨 薪水 了 。 我 们 必须 将 这 个 变化 记录 到 该 员工 
信息 的 每 一 行 中 (图 4-2 中 出 现 两 次 ); 否则 ， 数 据 就 会 不 一 致 。 

这 些 异 常 都 表明 了 表 EMPLOYEE2 不 是 完整 结 


构 化 关系 。 这 个 关系 的 问题 是 它 包 含 了 两 个 实体 ， | 守 于 >ee 9 -evonpeec 
, ， SPSS 6/19/201X 

EMPLOYEE 和 COURSE。 我 们 将 用 规范 化 的 理论 Save 10/7/201X 

(在 本 章 后 面 会 介绍 ) 将 EMPLOYEE2 分 割 为 两 个 Tax Acc 12/8/201X 

3 Visual Basic 1/12/201X 

关系 ， 其 中 一 个 为 EMPLOYEE1 (图 4-1 )， 另 一 个 A 

叫 作 EMP COURSE， 将 在 图 4-7 中 出 现 并 带 有 样本 SPSS 6/19/201X 





数据 。 在 图 4-7 中 加 上 下 划 线 来 强调 这 个 关系 的 主 
键 是 EmpID 和 CourseTitle。 检 查 图 4-7， 可 以 证 明 图 4-7 EMP COURSE 
EMP COURSE 不 包含 前 面 描述 的 三 种 异常 ， 所 以 是 完整 结构 的 。 


4.3 ”将 EER 图 转换 成 关系 


在 逻辑 设计 阶段 ， 会 将 概念 设计 阶段 的 E-R (与 EER) 图 转换 为 关系 数据 库 模 式 。 这 个 
过 程 的 输入 是 第 2 章 、 第 3 章 中 学 习 的 实体 -联系 图 (和 扩展 E-R)。 输 出 是 本 章 前 两 节 所 
介绍 的 关系 模式 。 

将 EER 图 转换 (或 映射 ) 为 关系 是 一 个 相对 简单 的 过 程 ， 有 一 些 定义 好 的 规则 。 事 实 
上 ,许多 CASE 工具 可 以 目 动 执行 转换 过 程 中 的 许多 步骤 。 然 而 ， 理 解 转换 过 程 的 步骤 很 重 
要 ， 主 要 有 以 下 四 个 原因 : 

1 ) CASE 工具 通常 不 能 为 复杂 的 数据 联系 建 模 ， 比 如 三 元 联系 和 超 类 型 / 子 类 型 联系 。 
在 这 些 情况 下 ， 需 要 手动 执行 转换 步骤 。 

2 ) 有 时 需要 在 合适 的 方案 中 选择 特定 的 解决 方案 。 

3 ) 需要 准备 好 为 CASE 工具 给 出 的 结果 做 质量 检查 。 

4 ) 理解 转换 过 程 可 以 有 助 于 理解 为 什么 概念 数据 建 模 (真实 世界 建 模 ) 与 将 概念 数据 
建 模 过 程 的 结果 替代 为 可 以 用 DBMS 实现 的 形式 不 同 。 

在 接 下 来 的 讨论 中 ,利用 第 2 章 和 第 3 章 中 的 例子 来 说 明 转 换 步 骤 。 它 将 帮助 你 回忆 起 
那些 章节 中 讨论 的 三 种 实体 : 
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1 ) 常规 实体 ”具有 独立 的 存在 性 ， 通 常 代表 真实 世界 的 物体 ， 比 如 人 和 物品 。 常 规 实 
体 用 单线 矩形 表示 。 

2 ) 弱 实 体 无 法 独立 于 与 所 有 者 (常规 ) 实体 类 型 的 标识 联系 而 存在 。 弱 实体 用 双 线 

3 ) 关联 实体 (也 称 为 动 名 词 ) 形成 于 其 他 实体 类 型 之 间 的 多 对 多 联系 。 关 联 实体 用 圆 
角 和 矩 形 表 示 。 


4.3.1 步骤 1， 映射 常 规 实体 


E-R 图 中 每 个 常规 实体 类 型 都 被 转换 为 一 个 关系 。 关 系 的 名 称 通常 与 实体 类 型 相同 。 实 
体 类 型 的 简单 属性 就 是 关系 中 的 属性 。 实 体 类 型 的 标识 符 就 是 对 应 关系 的 主键 。 应 当做 好 检 
查 以 确保 主键 满足 第 2 章 中 提出 的 标识 符 的 属性 。 

图 4-8a 是 第 2 章 中 Pine Valley 家 具 公 司 的 CUSTOMER 实体 ( 见 图 2-21 ) 的 表示 。 对 
应 的 CUSTOMER 关系 在 图 4-8b 中 以 图 形 化 形式 展现 。 在 本 章 以 及 本 节 接 下 来 的 图 中 ， 都 
只 简要 显示 每 个 关系 的 一 些 主 属 性 。 


CUSTOMER 
Customer ID 


Customer Name 
Customer Address 
Customer Postal Code 


a) CUSTOMER 实体 类 型 





CUSTOMER 


CustomerliD CustomerAddress | CustomerPostalCode 


b) CUSTOMER 关系 
图 4-8 ”映射 常规 实体 的 例子 


1. 复合 属性 

当 一 个 常规 实体 含有 复合 属性 时 ， 只 有 复合 属性 的 简单 成 分 可 以 作为 新 关系 的 属性 。 
图 4-9 显示 了 图 4-8 中 例子 的 变化 ，Customer Address 属性 是 复合 属性 ， 包 括 Street、City 
和 State ( 见 图 4-9a)。 如 图 4-9b 所 示 ， 该 实体 被 映射 为 关系 CUSTOMER ， 其 中 包含 简单 的 
地 址 属性 。 尽 管 在 图 4-9a 中 Customer Name 是 简单 属性 ， 但 它 也 可 以 被 由 Last Name、First 
Name 和 Middle Name 组 成 的 复合 属性 代替 。 在 设计 CUSTIMER 关系 (图 4-9b) 时 ， 可 以 
用 这 些 简 单 属 性 代替 CustomerName。 与 复合 属性 比 起 来 ， 简 单 属 性 提高 了 数据 可 用 性 并 能 
促进 数据 质量 的 维护 。 

2. 多 值 属 性 

当 常 规 实体 类 型 含有 多 值 属性 时 ， 将 会 建立 两 个 (而 不 是 一 个 ) 新 关系 。 第 一 个 关系 包 
含 除 了 多 值 属性 外 的 该 实体 类 型 的 所 有 属性 。 第 二 个 关系 包含 两 个 属性 ， 它 们 形成 了 该 关系 
的 主键 。 其 中 第 一 个 属性 是 第 一 个 关系 的 主键 ， 也 是 第 二 个 关系 的 外 键 。 第 二 个 属性 即 为 多 
值 属性 。 第 二 个 关系 的 名 称 应 当 能 概括 多 值 属 性 的 含义 。 

图 4-10 显示 了 这 个 过 程 的 一 个 例子 。 这 是 Pine Valley 家 具 公 司 的 EMPLOYEE 实体 类 
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型 。 如 图 4-10a 所 示 ，EMPLOYEE 有 一 个 多 值 属性 Skill。 图 4-10b 显示 了 创建 的 两 个 关 
系 。 第 一 个 关系 ( 叫 作 EMPLOYEE) 的 主键 为 EmployeeID ， 第 二 个 关系 ( 叫 作 EMPLOYEE 


SKILL ) 有 两 个 属性 EmployeeID 和 Skill， 它 们 也 是 该 关系 的 主键 。 外 键 与 主键 的 关系 如 图 
中 箭头 所 示 。 


CUSTOMER 
Customer ID 
Customer Name 


Customer Address 
(Customer Street, Customer City, Customer State ) 
Customer Postal Code 





a) 具有 复合 属性 的 CUSTOMER 实体 类 型 
CUSTOMER 


CustomerID CustomerStreet | CustomerCity | CustomerState | CustomerPostalCode 


b) 具有 详细 地 址 的 CUSTOMER 关系 
图 4-9 ”映射 复合 属性 的 例子 


EMPLOYEE 
Employee ID 


Employee Name 
Employee Address 
{Skill} 





a) 和 县 有 多 值 属 性 的 实体 类 型 EMPLOYEE 


EMPLOYEE 
EmployeelD EmployeeName EmployeeAddress 


EMPLOYEE SKILL 


b) 关系 EMPLOYEE 和 关系 EMPLOYEE SKILL 


图 4-10 映射 具有 多 值 属性 的 实体 例子 


关系 EMPLOYEE SKILL 没有 非 主 属性 (也 叫 描 述 符 )。 每 一 行 只 记录 了 该 员工 具有 的 技 
能 ， 这 为 你 提供 了 一 个 机 会 : 建议 用 户 在 关系 中 加 入 新 的 属性 。 例 如 ，YearsExperience 和 / 
或 CertificaitonDate 属性 就 可 以 加 入 这 个 关系 中 。( 图 2-15b 是 员工 技能 的 为 一 种 变化 。) 

如 果 一 个 实体 类 型 包含 多 个 多 值 属性 ， 那 么 每 一 个 多 值 属性 都 将 转换 成 一 个 独立 的 
关系 。 









4.3.2 步骤 2: 映射 弱 实 体 


弱 实体 类 型 不 能 独立 存在 ， 只 能 依赖 于 和 男 一 个 叫 作 拥有 者 ( Owner) 的 实体 类 型 的 标 
识 职 系 而 存在 。 弱 实体 没有 完整 的 标识 符 ， 但 是 一 定 有 一 个 叫 作 部 分 标识 符 的 属性 ， 用 来 将 
其 与 每 个 所 有 者 实体 实例 的 各 种 弱 实 体 区 分 开 来 。 
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接 下 来 的 过 程 是 假设 已 经 将 步骤 1 中 对 应 的 标识 实体 类 型 的 关系 创建 好 。 如 果 没 有 ， 现 0 
在 应 该 利用 步骤 1 中 描述 的 过 程 创建 关系 。 133 
为 每 个 弱 实 体 类 型 创建 一 个 新 关系 ， 其 所 有 简单 属性 (或 复合 属性 的 简单 成 分 ) 作为 关 
系 的 属性 。 然 后 ， 将 标识 关系 中 的 主键 作为 新 关系 的 外 键 属性 。 新 关系 的 主键 由 标识 关系 的 
主键 和 能 实体 类 型 的 部 分 标识 符 组 成 。 
图 4-11 显示 了 这 个 过 程 的 一 个 例子 。 图 4-11a 显示 了 弱 实体 类 型 DEPENDENT 和 它 的 
标识 实体 类 型 EMPLOYEE 之 间 由 标识 联系 Claims 链接 ( 见 图 2-5 ) 。Dependent Name 属性 
是 这 个 关系 的 部 分 标识 符 ， 也 是 复合 属性 ， 包 括 First Name、Middle Initial 和 Last Name。 
因此 ， 假 设 对 于 给 定 的 员工 ， 这 些 项 将 唯一 地 确定 一 个 家 属 (有 个 例外 情况 ， 职 业 拳 击 手 
George Foreman 将 他 所 有 的 儿子 都 以 自己 的 名 字 命 名 )。 
图 4-11b 显示 了 将 这 个 E-R 片段 映射 得 出 的 两 个 关系 。DEPENDENT 的 主键 由 四 个 属 
性 组 成 : EmployeeID 、FirstName 、MiddleInitial 和 LastName。DateOfBirth 和 Gender 是非 
主 属 性 。 外 键 与 其 主键 的 关系 由 图 中 的 箭头 给 出 。 


EMPLOYEE DEPENDENT 


Employee ID Dependent Name 
Employee Name 


Claims (First Name, 


Middle Initial, 

Last Name) 
Date of Birth 
Gender 





a) 弱 实 体 DEPENDENT 


EMPLOYEE 






EmployeelD | EmployeeName 


DEPENDENT 


b) 由 弱 实 体 得 到 的 关系 
图 4-11 映射 能 实体 的 例子 


事实 上 ， 简 化 DEPENDENT 关系 中 的 主键 还 有 一 种 方法 : 创建 一 个 新 属性 ( 叫 作 
Dependent#) 作为 图 4-11b 中 的 代理 主键 。 用 此 方法 ,关系 DEPENDENT 将 有 以 下 属性 : 


DEPENDENT(Dependent#, EmployeelD, FirstName, Middlelnitial, 
LastName, DateOfBirth, Gender) 


Dependent# 是 一 系列 连续 的 数字 ， 对 应 于 一 个 员工 的 每 个 家 属 。 这 种 方案 能 为 每 个 家 
属 建立 唯一 的 标识 符 (甚至 是 George Foreman 的 例子 )。 

何 时 建立 代理 主键 

代理 主键 通常 用 来 简化 键 的 结构 。 根 据 Hoberman( 2006 ) 的 理论 ， 代 理 主 键 可 在 下 列 
情况 之 一 发 生 时 建立 : 

1 ) 有 复合 主键 ， 如 之 前 的 DEPENDENT 例子 ， 其 主键 包含 四 个 内 容 。 
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2 ) 日 然 主键 ( 即 企业 使 用 的 和 概念 数据 建 模 中 作为 标识 符 的 键 ) 无 效 (例如 ， 主 键 可 能 
很 长 ， 硅 作为 参照 其 他 表格 的 外 键 使 用 ， 将 会 占用 数据 库 软 件 的 很 多 资源 )。 

3 ) 目 然 主键 被 重复 使 用 ( 即 键 被 周期 性 地 复 用 或 重复 ， 因 此 随 着 时 间 的 推移 它 可 能 不 
能 保证 唯一 性 ); 这 种 情况 的 更 一 般 说 法 是 ， 随 着 时 间 的 推移 ， 主 键 不 能 保证 唯一 性 (例如 ， 
可 能 有 重复 的 ， 比 如 名 字 或 标题 )。 

当 创 建 代 理 主键 时 ， 自 然 键 被 保留 为 非 主 属性 ， 因 为 自然 键 有 其 企业 意义 ,必须 保留 在 
数据 库 中 。 事 实 上 ， 代理 主键 对 于 用 户 没 有 任何 意义 ， 所 以 用 户 从 来 不 知道 它们 的 存在 ; 在 
查询 中 ， 目 然 键 反 而 被 当成 了 标识 符 使 用 。 


4.3.3 步骤 3: 映射 二 元 联系 


表示 联系 的 过 程 取决 于 联系 的 度 (一 元 、 二 元 或 三 元 ) 和 联系 的 基数 。 我 们 通过 以 下 讨 
论 来 描述 和 解释 重要 的 例子 。 

1. 映射 二 元 的 一 对 多 联系 

对 于 一 个 二 元 联系 1:M， 首 先 使 用 步骤 1 中 的 过 程 为 联系 中 的 两 个 实体 类 型 各 创建 一 个 
关系 。 然 后 ,将 “1” 实 体 关 系 的 主键 属性 作为 “M ”实体 关系 的 外 键 。〈 可 以 这 样 来 记 这 条 
规则 : 主键 入侵 到 “AM 7” 那 一 边 。) 

为 了 说 明 这 个 简单 的 过 程 ， 用 Pine Valley 家 有 具 公司 的 客户 与 订单 之 间 的 联系 Submits 
( 见 图 2-21 ) 作为 例子 。 这 个 1:M 联系 如 图 4-12a 所 示 。( 再 次 强调 ， 这 里 只 简单 给 出 了 部 分 
属性 。) 图 4-12b 显示 了 使 用 这 条 规则 映射 具有 1:M 联系 的 实体 类 型 后 的 结果 。CUSTOMER 
(“1” 实 体 ) 的 主键 CustomerID 是 ORDER(“M” 实 体 ) 的 外 键 。 外 键 联系 由 箭头 表示 。 


CUSTOMER 


Customer ID i 


Customer Name 全 < 一 Order Date 


Customer Address 
Customer Postal Code 





a) CUSTOMER 与 ORDER 实体 间 的 联系 
CUSTOMER 


CustomerlD CustomerAddress CustomerPostalCode 


ORDER 


OrderlD OrderDate CustomerlD 


b) CUSTOMER 与 ORDER 关系 ， 其 中 ORDER 中 有 一 个 外 键 


图 4-12 ”映射 1:M 联系 的 例子 










2. 映射 二 元 的 多 对 多 联系 
假设 两 个 实体 类 型 A 和 B 之 间 有 二 元 多 对 多 (M:N) 联系 。 对 于 这 样 的 联系 ,创建 一 
135] 个 新 关系 C。 将 两 个 实体 类 型 的 主键 都 作为 C 关系 的 外 键 。 这 些 属性 在 一 起 作为 C 的 主键 。 
与 M:N 联系 相关 联 的 非 主 属性 都 包含 在 关系 C 中 。 
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图 4-13 是 使 用 这 条 规则 的 一 个 例子 。 图 4-13a 展 示 了 图 2-11a 中 的 实体 类 型 
EMPLOYEE 和 COURSE 之 间 的 联系 Completes。 图 4-13b 展示 了 由 实体 类 型 和 Completes 
联系 形成 的 三 个 关系 (EMPLOYEE 、COURSE 和 CERTIFICATE)。 如 果 Completes 表示 为 
如 图 2-11b 所 示 的 关联 实体 ， 那 么 将 会 产生 相似 的 结果 ， 但 关联 实体 的 问题 将 在 接 下 来 的 
章节 中 解决 。 在 联系 M:N 中 ， 首 先 为 两 个 常规 实体 类 型 EMPLOYEE 和 COURSE 各 创建 一 
个 关系 ， 然 后 为 Completes 联系 创建 一 个 新 关系 (在 图 4-13b 中 ,命名 为 CERTIFICATE )。 
CERTIFICATE 的 主键 由 EMPLOYEE 的 主键 EmployeeID 和 COURSE 的 主键 CourseID 组 
成 。 如 图 4-13 所 示 ， 这 些 属性 都 是 分 别 “ 指 向 ”各 自主 键 的 外 键 。 非 主 属性 DateCompleted 
也 出 现在 CERTIFICATE 中 。 尽 管 在 这 里 没有 显示 出 来 ,但 通常 会 为 CERTIFICATE 关系 创 
建 代理 主键 。 


Date Completed 


EMPLOYEE COURSE 
Employee ID 


Employee Name 
Employee Birth Date 





a) Completes 联系 (M:N) 
EMPLOYEE 


EmployeelD EmployeeName EmployeeBirthDate 


CERTIFICATE 


EmployeelD DateCompleted 


COURSE 


b) 三 个 结果 关系 
图 4-13 ”映射 M:N 联系 的 例子 


3. 映射 二 元 的 一 对 一 联系 

二 元 的 一 对 一 联系 可 以 看 作 是 特殊 的 一 对 多 联系 。 将 这 样 的 联系 映射 为 关系 有 两 个 步 
又 。 首 先 ， 为 每 个 实体 类 型 创建 一 个 关系 。 其 次 ， 将 其 中 一 个 关系 的 主键 作为 另 一 个 关系 的 
外 键 。 

在 1:1 联系 中 ， 一 个 方向 上 的 关联 是 可 选择 的 ， 而 另 一 个 方 问 上 的 关联 是 强制 的 。( 可 以 
在 图 2-1 中 回顾 这 些 符号 。) 在 关系 中 应 当 将 1:1 联系 中 强制 方 的 外 键 包 含 到 可 选 方 中 ， 这 样 
可 以 防止 在 外 键 属性 中 插入 空 值 。 任 何 与 该 联系 相关 的 属性 本 身 都 将 作为 外 键 加 入 同样 的 关 
系 中 。 

图 4-14 展示 了 这 个 过 程 的 一 个 例子 。 图 4-14a 显示 了 两 个 实体 类 型 NURSE (护士 ) 和 
CARE CENTER (护理 中 心 ) 间 的 二 元 1:1 联系。 每 个 护理 中 心 都 由 一 个 护士 负责 。 因 此 ， 
从 CARE CENTER 到 NURSE 的 关联 是 强制 的 ， 从 NURSE 到 CARE CENTER 的 关联 是 可 
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选 的 (因为 有 些 护 士 可 能 不 负责 一 个 护理 中 心 )。Date Assigned 属性 在 In Charge 联系 上 。 

4-14b 显示 了 将 该 联系 映射 为 一 系列 关系 的 结果 。 从 两 个 实体 类 型 中 建立 了 两 个 关系 
NURSE 和 CARE CENTER。 由 于 CARE CENTER 是 可 选 方 ， 所 以 其 中 包含 了 外 键 。 在 本 例 
中 ， 外 键 是 NurseInCharge， 它 与 NurseID 有 相同 的 域 ， 它 与 主键 的 联系 如 图 4-14 中 所 示 。 
CARE CENTER 中 的 属性 DateAssinged 也 不 允许 为 空 值 。 


Date Assigned 





















NURSE 
Nurse ID 
Nurse Name 
Nurse Birth Date 





CARE CENTER 
Center 1D 
Center Location 















In Charge 


a) 联系 In Charge (一 元 1:1 ) 
NURSE 


CARE CENTER 


CenteriD CenterLocation NurselnCharge DateAssigned 









b) 结果 关系 


图 4-14 ”映射 一 元 1:1 联系 的 例子 


4.3.4 步骤 4: 映射 关联 实体 


如 第 2 章 所 述 ， 当 数据 建 模 师 遇 到 多 对 多 联系 时 ， 可 能 会 选择 将 联系 建 模 为 E-R 图 中 的 
关联 实体 。 这 种 方法 能 最 好 地 让 终端 用 户 将 联系 看 作 实 体 类 型 而 不 是 M:N 联系 。 映 射 关联 
实体 涉及 步骤 3 中 映射 M:N 联系 的 基本 步骤 。 

第 一 步 是 建立 三 个 关系 : 为 两 个 实体 类 型 各 建立 一 个 关系 ， 再 为 关联 实体 建立 一 个 关 
系 。 我 们 指 的 是 从 作为 关联 关系 的 关联 实体 而 形成 的 关系 。 第 二 步 根据 E-R 图 中 的 标识 符 
是 否 被 分 配 到 关联 实体 中 来 决定 。 

1. 标识 符 未 被 分 配 

如 果 标 识 符 没 有 被 分 配 ， 那 么 关联 关系 的 默认 主键 就 是 其 他 两 个 关系 的 主键 的 组 合 。 这 
些 属性 作为 另 两 个 关系 的 外 键 。 

图 4-15 就 显示 了 这 样 一 个 例子 。 图 4-15a 显示 了 关联 实体 ORDER LINE， 它 连接 的 是 
Pine Valley 家 具 公 司 的 两 个 实体 类 型 ORDER 和 PRODUCT ( 见 图 2-21 )。 图 4-15b 显示 了 
映射 出 的 三 个 关系 。 注 意 这 个 例子 与 图 4-13 中 M:N 联系 的 例子 的 区 别 。 

2. 标识 符 已 分 配 

有 时 数据 建 模 师 会 为 E-R 图 中 的 关联 实体 类 型 分 配 一 个 单 属性 标识 符 。 在 概念 数据 建 模 
阶段 ， 有 以 下 两 个 原因 会 让 建 模 师 这 样 做 : 

1 ) 关联 实体 类 型 有 用 户 熟 悉 的 自然 单 属性 标识 符 。 
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ORDER ORDER LINE PRODUCT 


Order ID Product ID 
Order Date Ordered Quantity Product Description 


Product Finish 
Product Standard Rrice 
Product Line ID 





注 : Product Line ID 被 包含 在 这 个 关系 中 ， 
这 是 因为 它 是 PRODUCT LINE 实体 的 外 键 ， 
而 不 是 因为 它 应 该 常规 地 作为 PRODUCT 的 
属性 
a) 关联 实体 
ORDER 


OrderiD OrderDate 


ORDER LINE 


OrderlD ProductID OrderedQuantity 


PRODUCT 


ProductID ProductDescription | ProductFinish | ProductStandardPrice | ProductLinelD 


b) 三 个 结果 关系 
图 4-15 ”映射 关联 实体 的 例子 


2 ) 默认 的 标识 符 (由 参与 的 实体 类 型 的 标识 符 组 成 ) 不 能 唯一 地 标识 关联 实体 的 实例 。 

这 些 也 是 本 章 先 前 提 到 的 创建 代理 主键 的 原因 。 

在 这 里 ， 映 射 关联 实体 的 过 程 修 改 如 下 : 与 之 前 一 样 ， 创 建 一 个 新 的 (关联 ) 关系 来 表 
示 关 联 实 体 。 然 而 ， 该 关系 的 主键 是 E-R 图 中 分 配 的 标识 符 (而 非 默 认 键 )。 参 与 的 两 个 实 
体 类 型 的 主键 作为 关联 关系 的 外 键 。 

图 4-16 显示 了 这 个 过 程 的 一 个 例子 。 图 4-16a 显示 了 关联 实体 SHIPMENT 连接 了 实体 
类 型 CUSTOMER 和 VENDOR。 选 择 Shipment ID 作为 SHIPMENT 的 标识 符 有 两 个 原因 : 

1 ) Shipment ID 是 该 实体 的 自然 标识 符 ， 并 且 终 端 用 户 非常 熟悉 。 

2 ) 默认 标识 符 由 Customer ID 和 Vendor ID 组 成 ， 不 能 唯一 地 标识 SHIPMENT (运单 )。 
事实 上 ， 给 定 的 销售 商 对 给 定 客户 会 有 许多 运单 。 即 使 包含 有 Date 属性 ， 也 不 能 保证 标识 
的 唯一 性 ， 因 为 在 指定 的 日 期 一 个 销售 商会 有 许多 个 运单 。 然 而 ， 代 理 键 Shipment ID 可 以 
唯一 地 标识 每 一 个 运单 。 

与 关联 实体 SHIPMENT 相关 联 的 两 个 非 主 属性 是 Shipment Date 和 Shipment Amount。 

图 4-16b 显示 了 将 这 个 实体 映射 成 一 系列 关系 的 结果 。 新 的 关联 关系 叫 SHIPMENT。 
主键 是 ShipmentID。CustomerID 和 VendorID 作为 这 个 关系 的 外 键 ，ShipmentDate 和 
ShipmentAmount 是 非 主 属性 。 
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CUSTOMER SHIPMENT VENDOR 


Customer ID Shipment ID Vendor ID 
Customer Name Shipment Date Vendor Address 


Shipment Amount 










SHIPMENT 
hpmemp | CustomerD 7 A 


VENDOR 


VendorlD VendorAddress 


b) 三 个 结果 关系 
图 4-16 映射 具有 标识 符 的 关联 实体 的 例子 


4.3.5 ”步骤 5: 映射 一 元 联系 


在 第 2 章 ， 我 们 将 一 元 联系 定义 为 单个 实体 类 型 的 实例 间 的 联系 。 一 元 联系 也 叫 递 归 联 
系 (recursive relationship ) 。 一 元 联系 中 最 重要 的 两 个 是 一 对 多 联系 和 多 对 多 联系 。 我 们 将 
分 别 讨论 这 两 种 情况 ， 因 为 这 两 种 情况 的 映射 方法 有 些 不 一 样 。 

1. 一 元 的 一 对 多 联系 

一 元 联系 中 的 实体 类 型 由 步骤 1 中 摘 述 的 过 程 映 射 成 关系 ， 然 后 加 入 外 键 属性 ， 外 键 
参照 的 是 同一 关系 中 的 主键 值 。( 这 个 外 键 必须 与 主键 有 同样 的 域 。) 这 种 外 键 叫 作 递归 外 键 
(recursive foreign key) 。 

图 4-17a 显示 了 一 元 的 一 对 多 联系 Manages， 该 联系 将 企业 中 的 每 个 员工 与 其 经 理 联 系 
起 来 。 每 个 员工 可 能 有 一 个 经 理 ; 给 定 一 个 员工 ， 他 可 能 管理 零 到 多 个 员工 。 

图 4-17b 显示 了 从 该 实体 和 联系 映射 出 的 EMPLOYEE 关系 。 关 系 中 的 (递归) 外 键 是 
ManagerID。 这 个 属性 与 主键 EmployeeID 有 相同 的 域 。 关 系 中 的 每 一 行 存储 了 给 定员 工 的 
以 下 信息 : EmployeeID、EmployeeName 、EmployeeDateOfBirth 和 ManagerID ( 即 该 员工 经 
理 的 EmployeeID )。 由 于 它 是 外 键 ， 因 此 ManagerID 参照 EmployeeID 。 

2. 一 元 的 多 对 多 联系 

这 种 情况 下 需要 建立 两 个 关系 : 一 个 用 来 表示 联系 中 的 实体 类 型 ， 男 一 个 关联 关系 用 来 
表示 M:N 联系 本 身 。 关 联 关系 的 主键 由 两 个 属性 组 成 。 这 些 属性 (名字 不 必 相 同 ) 的 值 都 来 
自 另 一 个 关系 的 主键 。 联 系 的 非 主 属性 都 包含 在 关联 关系 中 。 

图 4-18 是 映射 一 元 M:N 联系 的 一 个 例子 。 图 4-18a 显示 了 组 合 零 件 间 的 材料 清单 联系 。 
(该 结构 在 第 2 章 中 出 现 过 ， 是 图 2-13 中 的 一 个 例子 。) 联系 ( Contains) 是 M:N 类 型 的 ， 因 
为 给 定 的 零件 可 以 包含 许多 组 成 零件 ， 反 过 来 ， 一 个 零件 可 以 被 用 作 许 多 零件 的 组 成 部 分 。 
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EMPLOYEE 
Employee ID 
Employee Name 


Employee Date of Birth 





Manages 
a) 具有 一 元 联系 的 EMPLOYEE 实体 
EMPLOYEE 





b) 具有 递归 外 键 的 EMPLOYEE 关系 
图 4-17 映射 一 元 1:M 联系 的 例子 


图 4-18b 显示 了 将 该 实体 及 其 联系 映射 的 结果 。ITEM (零件 ) 关系 是 直接 由 同样 的 实 
体 类 型 映射 出 来 的 。COMPONENT (成 分 ) 是 关联 关系 ， 其 主键 由 两 个 属性 组 成 ， 分 别 叫 
ItemNo 和 ComponentNo。Quantity 是 这 个 关系 的 非 主 属性 ， 记 录 的 是 给 定 零 件 的 某 种 成 分 
的 数量 。ItemNo 和 ComponentNo 参照 的 都 是 ITEM 关系 的 主键 (ItemNo ) 。 


ltem Description Quantity 


ltem Unit Cost 





a) 材料 清单 联系 Contains (M:N) 
ITEM 


ee 
b) ITEM 和 COMPONENT 关系 
图 4-18 ”映射 一 元 M:N 联系 的 例子 
通过 查询 ， 我 们 能 很 容易 地 知道 给 定 零件 的 成 分 。 下 面 的 SQL 查询 语句 将 列 出 编号 为 
100 的 零件 的 直接 成 分 (及 其 数量 ): 
SELECT ComponentNo, Quantity 


FROM Component T 
WHERE ItemNo = 100; 


4.3.6 步骤 6: 映射 三 元 (和 nn 元 ) 联系 


第 2 章 提 及 三 元 联系 是 三 个 实体 类 型 间 的 联系 。 在 第 2 章 , 我们 建议 将 三 元 联系 转换 成 
关联 实体 来 更 准确 地 表示 参与 约束 。 
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为 了 映射 连接 三 个 常规 实体 类 型 的 关联 实体 类 型 ， 我 们 建立 一 个 新 的 关联 关系 。 该 关系 
的 默认 主键 由 参与 的 三 个 实体 类 型 的 主键 属性 组 成 。( 有 些 情况 下 需要 加 入 额外 属性 来 确保 
主键 属性 的 唯一 性 。) 这 些 属 性 也 作为 外 键 ， 参 照 的 是 三 个 参与 实体 类 型 的 主键 。 任 何 关联 
实体 类 型 的 属性 都 是 新 关系 的 属性 。 

图 4-19 显示 了 一 个 映射 三 元 联系 (表示 成 关联 实体 类 型 ) 的 例子 。 图 4-19a 是 一 个 E-R 
片段 (或 视图 )， 它 表示 一 个 病人 从 医生 那里 接受 治疗 。 关 联 实体 类 型 PATIENT TREATMENT 
(病人 治疗 ) 有 以 下 属性 : PTreatment Date 、PTreatment Time 和 PTreatment Results，PATIENT 
TREATMENT 的 每 个 实例 都 记录 了 这 些 属性 的 值 。 

图 4-19b 显示 了 将 该 视图 映射 的 结果 。 主 键 属性 是 PatientID 、PhysicianID 和 Treatment 
Code， 它 们 也 是 PATIENT TREATMENT 的 外 键 。TREATMENT 中 的 外 键 在 PATIENT 
TREATMENT 中 叫 作 PTreatmentCode。 我 们 使 用 列 名 来 说 明 外 键 与 其 参照 的 主键 不 上 必 有 相同 
的 名 字 ， 只 需 来 和 目 同一 个 域 即 可 。 这 三 个 属性 是 PATIENT TREATMENT 的 主键 包含 的 内 容 。 
然而 ， 它 们 不 能 唯一 地 标识 给 定 的 治疗 ， 因 为 一 个 病人 可 以 在 不 同 的 场合 从 同一 个 医生 那里 
接受 同样 的 治疗 。 那 么 将 Date 属性 也 作为 主键 的 一 部 分 (与 其 他 三 个 属性 一 起 ) 能 形成 主键 
吗 ? 如 果 给 定 的 病人 在 指定 的 日 期 从 同一 位 医生 那里 只 接受 一 种 治疗 的 话 ， 是 可 以 的 。 然 而 ， 
这 并 不 符合 实际 情况 。 例 如 ， 一 个 病人 可 能 在 早晨 接受 治疗 ， 又 在 下 午 接受 了 同样 的 治疗 。 
为 了 解决 这 个 问题 ， 我 们 将 PTreatmentDate 和 PTreatmentTime 也 作为 主键 的 一 部 分 。 这 样 ， 
PATIENT TREATMENT 的 主键 就 由 五 个 属性 组 成 (如 图 4-19b 所 示 ): PatientID 、PhysicianID 、 
TreatmentCode 、PTreatmentDate 和 PTreatmentTime。 唯 一 的 非 主 属性 是 PTreatmentResults。 












PHYSICIAN 


Physician ID 
Physician Name 






PATIENT 
Patient ID 
Patient Name 






TREATMENT 
Treatment Code 
Treatment Description 









PTreatment Time 
PTreatment Results 


a) 带 有 关联 实体 的 PATIENT TREATMENT 三 元 联系 


PATIENT PHYSICIAN TREATMENT 


PatientlD PatientName PhysicianlD PhysicianName TreatmentCode | TreatmentDescription 


PATIENT TREATMENT 


PatientID PhysicianID | PTreatmentCode | PTreatmentDate |PTreatmentTime | PTreatmentResults 


b) 4 个 结果 关系 
图 4-19 ”映射 三 元 联系 的 例子 


虽然 这 样 的 主键 在 技术 上 是 正确 的 ， 但 是 它 很 复杂 ， 因 此 很 难 管理 并 上 且 容 易 出 错 。 引 入 
代理 键 是 一 个 较 好 的 解决 方案 ， 比 如 PTreatmentID ， 它 是 一 系列 数字 ， 能 唯一 标识 每 个 治 
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疗 。 在 本 例 中 ， 除 了 PTreatmentDate 和 PTreatmentTime 外 ， 每 个 前 主键 属性 都 是 PATIENT 
TREATMENT 关系 中 的 外 键 。 


4.3.7 步骤 7: 映射 超 类 型 / 子 类 型 联系 


至 今 为 止 ， 关 系数 据 模 型 并 不 直接 文 持 超 类 型 / 子 类 型 联系 。 幸 运 的 是 ， 数 据 库 设计 者 
有 许多 方法 来 将 这 些 联系 表示 为 关系 数据 模型 ( Chouinard，1989 )。 为 了 达到 目的 ， 我 们 使 
用 以 下 最 常用 的 策略 : 

1 ) 为 超 类 型 及 其 每 个 子 类 型 分 别 创建 一 个 关系 。 

2 ) 在 为 超 类 型 创建 的 关系 中 加 入 超 类 型 成 员 共 有 的 属性 ， 同 时 也 包括 主键 。 

3 ) 在 为 子 类 型 创建 的 关系 中 加 入 超 类 型 的 主键 ， 对 于 子 类 型 ， 只 有 这 些 主键 才 是 唯一 的 。 

4) 回 超 类 型 中 加 入 一 个 (或 多 个 ) 属性 用 作 子 类 型 鉴别 子 。( 子 类 型 鉴别 子 的 作用 在 第 
3 章 中 讨论 过 。) 

图 4-20 和 图 4-21 显示 了 该 过 程 的 一 个 例子 。 图 4-20 显示 了 超 类 型 EMPLOYEE 及 其 
子 类 型 HOURLY EMPLOYEE、SALARIED EMPLOYEE 和 CONSULTANT。 (这 个 例子 在 
第 3 章 中 提 到 过 ， 图 4-20 与 图 3-8 相同 。) EMPLOYEE 的 主键 是 Employee Number， 属 性 
Employee Type 是 子 类 型 鉴别 子 。 















EMPLOYEE 
Employee Number 
Employee Name 
Employee Address 
Employee Date Hired 
Employee Type 


Employee Type= 









HOURLY 
EMPLOYEE 
Hourly Rate 


SALARIED 
EMPLOYEE 

Annual Salary 

Stock Option 


CONSULTANT 






Contract Number 
Billing Rate 





图 4-20” 超 类 型 / 子 类 型 联系 


EMPLOYEE 


EmployeeNumber | EmployeeName | EmployeeAddress | EmployeeDateHired | EmployeeType 


CONSULTANT 


CEmployeeNumber ContractNumber | BillingRate 
HOURLY EMPLOYEE 


HEmployeeNumber HourlyRate SALARIED EMPLOYEE 
SEmployeeNumber | AnnualSalary | StockOption 


图 4-21 将 超 类 型 / 子 类 型 联系 映射 为 关系 
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图 4-21 是 使 用 这 些 规则 将 图 4-20 映射 成 关系 的 结果 。 超 类 型 和 其 三 个 子 类 型 都 分 别 对 
应 一 个 关系 ( 超 类 型 是 EMPLOYEE)。 这 四 个 关系 的 主键 都 是 EmployeeNumber。 我 们 用 前 
级 来 区 分 每 个 子 类 型 的 主键 。 例 如 。SEmployeeNumber 是 关系 SALARIED EMPLOYEE 的 
主键 。 这 些 属性 都 是 外 键 ， 参照 的 是 超 类 型 的 主键 ,图 中 箭头 给 出 了 这 种 关系 。 每 个 子 类 型 
关系 包含 了 该 子 类 型 特有 的 属性 。 

对 于 每 个 子 类 型 ， 我 们 可 以 利用 SQL 命令 将 子 类 型 与 超 类 型 做 连接 ， 建 立 一 个 包含 
该 子 类 型 所 有 属性 (特有 的 和 继承 的 ) 的 关系 。 人 例如， 假设 我 们 想 建立 包含 SALARIED 
EMPLOYEE 的 所 有 属性 的 表格 ， 可 以 使 用 以 下 命令 : 


SELECT * 
FROM Employee 工 SalariedEmployee T 
WHERE EmployeeNumber = SEmployeeNumber; 


4.3.8 将 EER 转换 成 关系 总 结 


上 述 步骤 综合 解释 了 EER 图 中 的 每 个 元 素 如 何 转换 成 关系 数据 模型 的 一 部 分 。 表 4-2 
是 这 些 步 又 和 用 来 解释 每 一 类 型 转换 的 图 表 的 一 个 简略 参照 。 


表 4-2 从 EER 到 关系 的 转换 总 结 


EER 结构 关系 表示 (样本 图 ) 
常规 实体 创建 具有 主键 和 非 主 属性 的 关系 (图 4-8 ) 
复合 属性 复合 属性 中 的 每 一 部 分 都 是 目标 关系 的 一 个 属性 (图 4-9 ) 
多 值 属 性 为 复合 主键 的 多 值 属性 分 别 创建 关系 ， 关 系 要 包含 实体 的 主键 (图 4-10 ) 
弦 实 体 创建 具有 复合 主键 (包含 实体 所 依赖 的 实体 的 主键 ) 和 非 主 属性 的 关系 (图 4-11 ) 


二 元 或 一 元 1:M 联系 将 实体 的 主键 放 到 联系 的 “1” 方 ， 作 为 “M” 方 的 外 键 (图 4-12; 一 元 联系 见 图 4-17 ) 
二 元 或 一 元 M:N 联系 | 由 相关 实体 的 主键 和 联系 或 关联 实体 的 任何 非 主 属性 创建 有 具有 组 合 主键 的 关系 
或 不 含 键 的 关联 实体 (图 4-13， 关 联 实体 见 图 4-15， 二 元 联系 见 图 4-18 ) 


Et 将 一 个 实体 的 主键 放 到 另 一 个 实体 的 关系 中 ， 在 关系 的 强制 方 为 可 选择 方 设置 外 键 
二 元 或 一 元 1:1 联系 [图 本 1 


二 元 或 一 元 M:N 联系 | 建立 含有 与 关联 实体 和 其 非 主 属性 相关 的 主键 的 且 相 关 实 体 的 主键 作为 外 键 的 关系 
或 含 键 的 关联 实体 (图 4-16 ) 


与 上 面 的 二 元 M:N 联系 相同 ; 若 无 自 己 的 键 ， 则 将 所 有 相关 实体 的 主键 作为 关系 中 联系 
三 元 入 元 联系 或 关联 实体 的 主键 的 一 部 分 ; 若 含 有 代理 键 ， 则 将 关联 实体 的 主键 作为 关系 中 联系 或 关联 
实体 的 外 键 (图 4-19 ) 


为 超 类 创建 关系 ， 其 中 含有 其 所 有 子 类 共有 的 主键 和 非 主 属性 ， 再 为 每 个 子 类 创建 
超 类 型 / 子 类 型 联系 | 关系 ， 其 中 含有 相同 的 主键 (有 相同 的 名 称 ) 和 只 与 该 子 类 有 关 的 非 主 属性 (图 4-20 和 
图 4-21 ) 


4.4 规范 化 简介 


按照 先前 介绍 的 步骤 将 EER 图 转换 成 关系 通常 产生 的 是 完整 结构 化 关系 。 然 而 ,按照 
步骤 不 能 保证 将 所 有 的 异常 清除 。 规 范 化 是 一 个 形式 化 过 程 ， 将 确定 一 个 关系 中 应 该 包含 哪 
些 属 性 ， 从 而 保证 所 有 的 异常 都 被 清除 。 例 如 ， 用 规范 化 原理 将 表 EMPLOYEE2 转化 为 表 
EMPLOYEE1 (图 4-1 ) 和 表 EMP COURSE (图 4-7 )。 在 整个 数据 库 开发 过 程 中 ， 以 下 两 种 
情况 下 使 用 规范 化 将 有 所 受益 : 

1 ) 在 逻辑 数据 库 设计 阶段 (本 章 中 介绍 ) 应 当 使 用 规范 化 的 概念 来 检查 从 E-R 图 映射 
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来 的 关系 的 质量 。 

2 ) 在 逆向 使 用 旧 系 统 时 ” 旧 系 统 的 许多 表格 和 用 户 视图 都 是 元 余 的 ， 并 且 很 容易 受 本 
草 所 介绍 的 异常 所 影响 。 

迄今 为 止 ， 我 们 已 经 给 出 了 完整 结构 化 关系 的 直观 讨论 ; 然而 ， 还 需要 对 这 种 关系 及 其 
设计 过 程 有 一 个 正式 的 定义 。 规 范 化 是 指 相 继 地 减少 关系 中 的 异常 ， 以 产生 更 小 的 、 完 整 结 
构 的 关系 的 过 程 。 下 面 是 规范 化 的 主要 目的 : 

1 ) 最 小 化 数据 元 余 ， 从 而 避免 出 现 异常 并 节省 存储 空间 。 

2 ) 简化 参照 完整 性 约束 的 强制 性 。 

3 ) 使 数据 维护 (插入 、 更 新 和 删除 ) 更 加 简单 。 

4 ) 提供 一 个 更 好 的 设计 ， 这 是 真实 世界 更 好 的 代表 和 未 来 发 展 的 更 稳固 的 基础 。 

规范 化 并 不 对 数据 如 何 显示 、 碍 询 和 报告 作假 设 。 规 范 化 基于 范式 和 函数 依赖 ， 它 只 定 
义 了 业务 规则 而 非 数据 的 使 用 。 另 外 ， 请 记 住 ， 数 据 是 在 逻辑 数据 库 设 计 完 成 之 前 被 规范 
化 的 。 因 此 ,在 第 5 章 中 将 看 到 ， 规 范 化 对 数据 在 物理 上 如 何 存储 及 处 理性 能 上 没有 任何 约 
束 。 规 范 化 是 逻辑 数据 建 模 的 技术 ， 它 的 使 用 将 能 保证 企业 范围 内 的 视图 结构 良好 。 


4.4.1 规范 化 步骤 


规范 化 可 以 分 阶段 完成 和 理解 ， 其 中 每 一 个 阶段 对 应 
一 个 范式 〈 见 图 4-22 )。 范 式 是 关系 的 一 种 状态 ， 该 状态 
要 求 属性 之 间 的 联系 满足 一 定 的 规则 。 在 这 一 部 分 将 简要 
地 介绍 这 些 规则 ， 在 接 下 来 的 部 分 进行 详细 说 明 : 

1 ) 第 一 范式 不 含 多 值 属性 (也 叫 重复 分 组 )， 表 格 
(如 图 4-2b 中 所 示 ) 的 每 行 和 每 列 的 交叉 点 只 有 单个 值 (或 
空 值 )。 

2 ) 第 二 范式 不 含 部 分 涉 数 依赖 ( 即 非 主 属性 由 整 
个 主键 标识 )。 

3 ) 第 三 范式 不 含 传递 依赖 〈 即 非 主 属性 只 由 主键 
标识 )。 

本 章 将 按 第 一 到 第 三 范式 的 顺序 分 别 详细 阐述 。 虽 然 
还 存在 其 他 范式 ， 但 是 超出 了 本 书 的 范围 。 


4.4.2 ”函数 依赖 和 键 


规范 化 的 第 一 步 基 于 对 郴 数 依赖 的 分 析 。 函 数 依 赖 ( functional dependency) 是 两 个 或 
两 组 属性 间 的 一 种 约束 。 关 系 R 中 属性 B 函数 依赖 于 属性 A 是 指 对 于 A 的 每 一 个 有 效 的 实 
例 ，A 的 值 单独 决定 了 B 的 值 (Dutka 和 Hanson，1989 )。B 对 A 的 函数 依赖 用 一 个 箭头 表 
示 ， 即 A 一 B。 了 函数 依 赖 不 是 数学 上 的 依赖 : B 不 能 由 A 的 值 计 算得 出 。 当 然 ， 如 果 知 道 
A 的 值 ， 那 么 B 只 有 一 个 值 。 一 个 属性 可 能 对 两 个 (或 更 多 ) 属性 而 不 仅仅 是 一 个 属性 函数 
依赖 。 例 如 ， 考 虑 图 4-7 中 的 关系 EMP COURSE ( EmpID, CourseTitle, DateCompleted ) 。 
该 关系 中 的 函数 依赖 如 下 : 


EmPpID, CourseTitle 一 DateCompleted 







移 除 多 值 属 性 
移 除 部 分 依赖 
移 除 传 递 依赖 


图 4-22 ”规范 化 步骤 
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EmpID 和 CourseTitle 之 间 的 逗号 代表 逻辑 运算 AND， 因 为 DateCompleted 函数 依赖 于 
EmpID 和 CourseTitle 的 组 合 。 

该 语句 中 的 函数 依赖 是 指 课程 完成 的 日 期 是 由 员工 和 课程 名 称 标识 的 。 典 型 的 函数 依赖 
的 例子 如 下 : 

1 ) SSN 一 Name，Address，Birthdate 一 个 人 的 姓名 、 地 址 和 生日 都 是 函数 依赖 于 他 
的 社会 安全 号 SSN ( 换 名 话说， 对 每 个 SSN， 有 且 只 有 一 个 Name、Address 和 Birthdate ) 。 

2) VIN 一 Make，Model，Color 汽车 的 制作 、 模 型 和 颜色 都 是 函数 依赖 于 汽车 的 标 
识 编 号 (和 上 面 的 一 样 ， 对 于 每 个 VIN， 有 且 只 有 一 个 Make、Model 和 Color)。 

3 ) ISBN 一 Title，FirstAuthorName，Publisher 书 的 名 称 、 第 一 作者 的 姓名 和 出 版 
商都 是 函数 依赖 于 书 的 国际 标准 书号 (ISBN ) 。 

1. 决定 因子 

果 数 依赖 中 箭头 左边 的 属性 被 称 作 决定 因子 (determinant)。SSN、VIN 和 ISBN 是 前 面 
三 个 例子 中 的 决定 因子 。 在 关系 EMP COURSE (图 4-7 ) 中 ，EmpID 和 CourseTitle 的 组 合 
是 一 个 决定 因子 。 

2. 候选 键 

关系 中 能 单独 标识 一 行 数据 的 一 个 或 一 组 属性 称 为 候选 键 ( candidate key ) 。 候 选 键 需要 
满足 下 面 两 个 性 质 ， 这 两 个 性 质 属 于 之 前 列 出 的 关系 的 六 个 性 质 的 子 集 : 

1 ) 唯一 标识 性 ”对 于 每 一 行 ， 键 的 值 必须 能 单独 标识 那 一 行 。 这 条 性 质 表 明 ， 每 一 个 
非 主 属性 都 图 数 依赖 于 这 个 键 。 

2 ) 非 元 余 性 ” 键 中 没有 属性 可 以 在 不 破坏 唯一 标识 性 质 的 条 件 下 被 删除 。 

现在 将 之 前 的 定义 用 于 本 章 所 提 到 的 两 个 关系 中 ， 以 标识 其 候选 键 。 关 系 EMPLOYEE1 
(图 4-1 ) 有 如 下 模式 : EMPLOYEE1 (EmpID, Name, DeptName, Salary)。EmpID 是 关系 中 
唯一 的 决定 因子 。 所 有 其 他 属性 都 函数 依赖 于 EmpID。 因 此 ，EmpID 是 候选 键 (因为 没有 
其 他 候选 键 )， 同 时 也 是 主键 。 

关系 中 的 函数 依赖 用 图 4-23 中 的 符号 来 表示 。 图 4-23a 显示 了 EMPLOYEE1 的 函数 依 
赖 关系 。 图 中 水 平 线 描述 了 了 荫 数 依赖 。 从 主键 ( EmpID) 出 发 的 垂 线 连接 到 这 条 水 平 线 。 垂 
直 箭 头 指向 了 每 个 函数 依赖 于 主键 的 非 主 属性 。 

对 于 关系 EMPLOYEE2 (图 4-2b)，( 不 像 EMPLOYEE1 ) EmpID 不 能 单独 标识 关系 中 的 
一 行 。 例 如 ， 表 中 有 两 行 数据 ， 其 EmpID 号 都 是 100。 在 这 个 关系 中 有 两 种 函数 依赖 : 

1 ) EmpID 一 Name, DeptName, Salary 

2 ) EmpID, CourseTitle 一 DateCompleted 

在 EMPLOYEE2 中 ， 函 数 依 赖 表明 EmpID 和 CourseTitle 的 组 合 是 唯一 的 候选 键 (因此 
也 是 主键 )。 换 句 话 说 ，EMPLOYEE2 的 主键 是 组 合 键 。EmpID 和 CourseTitle 都 不 能 单独 
地 标识 关系 中 的 一 行 ， 因 此 (根据 性 质 1 ) 不 能 单独 作为 候选 键 。 检 验 图 4-2b 中 的 数据 ， 可 
以 证 明 EmpID 和 CourseTitle 的 组 合 确实 能 单独 标识 EMPLOYEE2 中 的 每 一 行 。 我 们 用 图 
4-23b 来 表示 该 关系 中 的 函数 依赖 。DateCompleted 是 唯一 一 个 函数 依赖 于 由 属性 EmpID 和 
CourseTitle 组 成 的 整个 主键 的 属性 。 

决定 因子 和 候选 键 之 间 的 联系 概括 如 下 : 候选 键 一 定 是 决定 因子 ， 而 决定 因子 不 一 定 
是 候选 键 。 例 如 ， 在 EMPLOYEE2 中 ，EmpID 是 决定 因子 而 不 是 候选 键 。 候 选 键 是 能 单独 
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标识 关系 中 剩 下 的 ( 非 主 ) 属性 的 决定 因子 。 决 定 因子 可 能 是 候选 键 (如 EMPLOYEE1 中 的 
EmpID)， 也 可 能 是 部 分 组 合 候选 键 (如 EMPLOYEE2 中 的 EmpID) 或 非 主 属性 。 下 面 将 举 
个 简单 的 例子 。 


EMPLOYEE1 


mp | Name | Dopoiome | saan 





a) EMPLOYEE1 中 的 函数 依赖 





EMPLOYEE2 





b) EMPLOYEE2 中 的 函数 依赖 
图 4-23 ”项 数 依 赖 的 表示 


简 而 言 之 ， 作 为 接 下 来 要 详细 阐述 的 规范 化 作用 的 预先 ， 规 范 化 的 关系 对 于 每 个 非 主 属 
性 都 有 其 作为 主键 的 决定 因子 ， 并且 关 系 中 没有 其 他 的 函数 依赖 。 


4.5 规范 化 实例 : Pine Valley 家 具 公 司 


既然 阐述 了 也 数 依赖 和 关键 字 ， 我们 就 为 阐述 规范 化 的 步骤 做 好 了 准备 。 如 果 一 个 
EER 数据 模型 已 经 转换 成 数据 库 的 一 系列 综合 的 关系 ， 那 么 这 些 关 系 中 的 每 一 个 都 需要 被 
规范 化 。 在 逻辑 数据 模型 已 经 从 屏幕 、 表 格 、 报 告 等 用 户 接口 得 到 的 情况 下 ， 你 将 为 每 个 用 
户 接口 创建 关系 并 将 之 规范 化 。 

我 们 用 Pine Valley F 家 具 公 司 的 客户 发 票 ( 见 图 4-24 ) 为 例 来 简单 加 以 说 明 。 


PVFC Customer Invoice 


Customer ID 2 Order ID 1006 


Customer Name Value Furniture Order Date 10/24/2010 


Address 15145 S.W. 17th St. 
Plano TX 75022 


ProductID Product Description Finish Quantity Unit Price Extended Price 


Dining Table . Natural Ash 2 $800.00 $1,600.00 
Writers Desk Cherry 2 $325.00 $650.00 
Entertainment Center Natural Maple 1 $650.00 $650.00 


Total $2,900.00 





图 4-24 Invoice (发票 )(Pine Valley 家 具 公 司 ) 
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4.5.1 步骤 0: 表示 表格 中 的 视图 


第 一 步 (预备 规范 化 ) 是 把 用 户 视 图 (这 里 指 发 票 ) 表示 成 单个 表格 或 关系 ， 其 属性 为 
每 一 列 标题 。 样 本 数据 记录 在 表格 的 每 一 行 中 ， 包 括 数据 中 出 现 的 任何 重复 的 分 组 。 表 示 发 
票 的 表格 显示 在 图 4-25 中 。 注 意 ， 图 中 包含 的 第 二 条 数据 (OrderID 1007 ) 是 为 了 进一步 表 
明 这 个 数据 的 结构 。 


OrderID _ Order Customer Customer Customer _ ProductiD Product 
Date ID Name Address Description 


Product Product 
Finish 


Ordered 
StandardPrice Quantity 


1006 10/24/2010 Value Plano, TX Dining Natural 


Furniture Table Ash 


800.00 
Writers 325.00 
Desk 
Entertainment _ Natural 
Center Maple 
Furniture Boulder, 4—Dr Oak 
Gallery CO Dresser 


Cherry 
650.00 
10/25/2010 500.00 


Entertainment 
Center 


Natural 650.00 


Maple 





图 4-25 INVOICE 数据 (Pine Valley 家 具 公 司 ) 


4.5.2 步骤 1: 转换 成 第 一 范式 


如 果 一 个 关系 满足 以 下 两 个 约束 条 件 ， 则 属于 第 一 范式 ( 1NF);: 

1 ) 关系 中 没有 重复 的 分 组 ( 即 表格 中 每 行 和 每 列 的 交叉 点 处 只 有 单一 的 数据 )。 

2 ) 关系 中 有 定义 的 主键 ， 能 单独 标识 关系 中 的 每 一 行 。 

1. 移 除 重复 的 分 组 

如 你 所 见 ， 图 4-25 中 的 发 票数 据 对 每 一 个 产品 都 有 一 个 重复 的 分 组 ， 并 以 独特 的 顺序 
出 现 。OrderID 1006 包含 了 3 个 重复 的 分 组 ， 按 序 对 应 于 该 条 记录 的 3 个 产品 。 

在 之 前 的 章节 中 ， 我们 展示 了 如 何 利 用 在 表 前 的 空白 单元 中 填补 相关 数据 值 ( 见 图 
4-2a 和 图 4-2b) 来 移 除 重复 分 组 。 将 该 方法 应 用 到 发 票数 据 表 中 ， 得 到 的 新 关系 (命名 为 
INVOICE) 见 图 4-26。 


OrderID Order Customer Customer Customer ProductlD Product Product Product Ordered 


1006 


1006 


1006 


1007 


1007 


Date 


10/24/2010 


10/24/2010 


10/24/2010 


10/25/2010 


10/25/2010 


ID 


图 4-26 


Name 


Value 
Furniture 
Value 
Furniture 
Value 
Furniture 
Furniture 
Gallery 
Fumiture 
Gallery 


Address 


Plano, TX 


Plano, TX 


Plano, TX 


Boulder, 
CO 


Boulder, 
CO 


Description 
Dining 
Table 


Writers 
Desk 


Entertainment 


Center 


4-Dr 
Dresser 


Entertainment 


Center 


Finish 
Natural 
Ash 
Cherry 


Natural 
Maple 


Oak 


Natural 
Maple 


INVOICE 关系 ( 1NF)(Pine Valley 家 具 公 司 ) 


StandardPrice Quantity 


800.00 


325.00 


650.00 


500.00 


650.00 
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2. 选择 主键 
INVOICE 中 有 4 个 决定 因子 ， 它 们 的 函数 依赖 如 下 所 示 : 


OrderiD — OrderDate, CustomerlD, CustomerName, CustomerAddress 
CustomeriD 一 CustomerName, CustomerAddress 

ProductiID — ProductDescription, ProductFinish, ProductStandardPrice 
OrderlD, ProductlD — OrderedQuantity 


为 什么 知道 有 这 些 函 数 依 赖 呢 ? 这 些 业 务 规则 来 自 企业 。 通 过 了 解 Pine Valley 家 具 公 
司 ， 我 们 知道 了 这 些 规则 。 图 4-26 中 没有 数据 违反 任何 一 条 函数 依赖 。 但 是 由 于 看 不 到 表 
中 所 有 可 能 的 行 ， 因 此 不 能 确定 不 存在 违反 这 些 困 数 依赖 的 发 票 。 因 此 ， 必 须 依靠 对 企业 相 
关 规 则 的 理解 。 

如 你 所 见 ，INVOICE 中 唯一 的 候选 键 是 OrderID 和 ProductID 的 组 合 (因为 表 中 这 些 属 
性 的 任何 组 合 值 只 有 1 行 )。 因 此 ， 在 图 4-26 中 将 OrderID 和 ProductID 画 上 下 划 线 ， 以 表 
明 它 们 构成 了 主键 。 

形成 主键 的 时 候 ， 必 须 注意 不 要 将 元 余 的 (因此 是 不 必要 的 ) 属性 包含 进去 。 因 此 ， 尽 
管 CustomerID 是 INVOICE 的 一 个 决定 因子 ,但 是 它 没有 被 作为 主键 的 一 部 分 ， 因 为 所 有 
的 非 主 属性 都 可 以 由 OrderID 和 ProductID 的 组 合 来 标识 。 我 们 将 在 接 下 来 的 规范 化 步骤 中 
说 明 CustomerID 的 作用 。 

图 4-27 展示 了 INVOICE 关系 中 的 函数 依赖 。 这 个 图 水 平 列 出 了 INVOICE 中 的 全 部 属 
性 ， 主 键 (OrderID 和 ProductID ) 标 有 下 划 线 。 唯 一 的 完全 依赖 属性 是 OrderedQuantity， 其 
他 函数 依赖 是 部 分 依赖 或 者 传递 依赖 (二 者 在 接 下 来 的 部 分 定义 )。 





完全 依赖 
EE 
El ee ee re er eee ee WN ee 
EE, i [| 1 
部 分 依赖 部 分 依赖 
图 4-27 INVOICE 的 函数 依赖 图 
3. 1NF 中 的 异常 


尽管 重复 的 分 组 已 经 被 移 除 了 ， 但 是 图 4-26 中 的 数据 仍然 包含 相当 多 的 元 余 。 例 如 ， 
表 中 客户 Value Furniture 的 CustomerID 、CustomerName 和 CustomerAddress 记录 了 (至少 ) 
3 行 。 鉴 于 这 些 元 余 ， 处 理 表 中 数据 可 能 导致 以 下 这 些 异 浓 : 

1 ) 插入 异常 ”使 用 这 种 表 结 构 ， 在 新 产品 (比如 Breakfast Table， 其 ProductID 为 8 ) 
首次 被 订购 之 前 ， 该 公司 将 无 法 介绍 该 产品 并 把 它 加 入 数据 库 : 在 不 具有 完整 的 OrderID 和 
ProductID 的 情况 下 ， 没 有 一 条 记录 可 以 加 入 表格 中 。 再 比如 ， 如 果 客 户 在 其 订单 OrderID 
1007 中 增加 订购 男 一 个 产品 ， 将 会 在 表格 中 插入 新 一 行 数 据 ， 其 订购 日 期 和 所 有 客户 信 
息 都 会 重复 。 这 就 导致 了 数据 的 复制 和 潜在 的 数据 项 错误 (例如 ， 客 户 姓名 可 能 被 输入 成 
“Valley Furniture”) 。 

2 ) 删除 异常 ”如 果 客 户 要 求 从 她 的 订单 OrderID 1006 中 删除 Dining Table, 这 一 行 数据 
将 会 从 关系 中 删除 ， 那 么 就 遗失 了 该 物品 的 光泽 度 (Natural Ash) 和 价格 ($800.00 ) 等 信息 。 
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3 ) 更 新 异常 ”如 果 Pine Valley 家 具 公 司 将 Entertainment Center ( ProductID 4 ) 的 价格 
提高 到 $750.00 (价格 调整 的 一 部 分 )， 这 个 改变 必须 记录 到 所 有 包含 了 这 个 物品 的 行 中 。( 在 
图 4-26 中 有 2 行 该 物品 记录 。) 


4.5.3 步骤 2: 转换 成 第 二 范式 


可 以 通过 转换 成 第 二 范式 的 方式 移 除 INVOICE 关系 中 的 许多 宛 余数 据 (造成 异常 )。 如 
果 一 个 关系 属于 第 一 范式 并 且 不 包含 部 分 函数 依赖 ， 那 么 它 就 属于 第 二 范式 (2NF)。 当 
一 个 非 主 属性 也 数 依赖 于 主键 中 的 一 部 分 (而 非 全 部 ) 时 ， 即 存在 部 分 函数 依赖 (partial 
functional dependency )。 图 4-27 中 存在 以 下 部 分 依赖 : 


OrderlD 一 OrderDate, CustomerlD, CustomerName, CustomerAddress 
ProductlID 一 ProductDescription, ProductFinish, ProductStandardPrice 


这 里 第 一 个 部 分 依赖 表明 订单 日 期 仅仅 由 订单 号 决定 ， 与 ProductID 无 关 。 

将 含有 部 分 依赖 的 关系 转换 成 第 二 范式 需要 遵循 以 下 步骤 : 

1 ) 为 每 一 个 作为 部 分 依赖 的 决定 因子 的 主键 属性 (或 者 属性 组 合 ) 创建 一 个 新 关系 ， 
在 新 关系 中 ， 该 属性 是 主键 。 

2 ) 将 仅仅 依赖 于 主键 属性 的 非 主 属性 从 原 关 系 移 动 到 新 关系 中 。 

对 INVOICE 关系 执行 这 些 步 骤 后 的 结果 如 图 4-28 所 示 。 部 分 依赖 的 移 除 形成 了 两 个 新 
的 关系 : PRODUCT 和 CUSTOMER ORDER。INVOICE 关系 现在 只 剩 主键 属性 ( OrderID 
和 ProductID ) 和 完全 函数 依赖 于 整个 键 的 OrderedQuantity 属性 。 我 们 将 这 个 关系 重 命名 为 
ORDER LINE， 因 为 表 中 的 每 一 行 代表 了 一 个 订单 中 的 一 行商 品 。 


OrderlD | ProductiD OrderedQuantity | ORDER LINE (3NF) 
i 二 Product 
ProductlD ProductDescription | ProductFinish StandardPrice | PRODUCT (3NF) 
OrderlD | OrderDate CustomerAddress | CUSTOMER ORDER (2NF) 


传递 依赖 








图 4-28 ” 移 除 部 分 依赖 


正如 图 4-28 所 示 ， 关 系 ORDER LINE 和 PRODUCT 属于 第 三 范式 。 然 而 ，CUSTOMER 
ORDER 包含 了 传递 依赖 ， 因 此 (尽管 属于 第 二 范式 ) 不 属于 第 三 范式 。 

如 果 一 个 关系 属于 第 一 范式 ， 那 么 满足 下 列 任意 一 个 条 件 就 属于 第 二 范式 : 

1 ) 主键 只 包含 一 个 属性 (例如 图 4-28 中 PRODUCT 关系 中 的 ProductID 属性 )。 根 据 
定义 ， 在 这 样 的 关系 中 不 存在 部 分 依赖 。 

2 ) 不 存在 非 主 属性 的 关系 (关系 中 所 有 的 属性 都 是 主键 的 组 成 部 分 )。 在 这 样 的 关系 中 
没有 函数 依赖 。 

3 ) 每 一 个 非 主 属性 都 函数 依赖 于 全 部 主键 属性 (例如 ， 图 4-28 中 ORDER LINE 关系 
中 的 OrderedQuantity 属性 )。 
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4.5.4 步骤 3: 转换 成 第 三 范式 


如 果 一 个 关系 属于 第 二 范式 上 且 不 存在 传递 依赖 ， 那 么 这 个 关系 就 属于 第 三 范式 ( 3NF)。 
传递 依赖 ( Transitive Dependency) 是 指 主键 和 一 个 或 多 个 非 主 属性 之 间 的 函数 依赖 ， 这 些 
非 主 属性 通过 其 他 非 主 属性 依赖 于 主键 。 例 如 ， 图 4-28 中 的 CUSTOMER ORDER 关系 中 的 


OrderlD — CustomerlD 一 CustomerName 
OrderlD 一 CustomerlD — CustomerAddress 


换 句 话说， 客户 姓名 和 地 址 都 可 以 由 CustomerID 标识 ,但 是 CustomerID 并 不 是 主键 
(之 前 提 到 的 ) 的 一 部 分 。 

传递 依赖 产生 的 数据 元 余 可 能 导致 之 前 讨论 过 的 异常 类 型 。 例 如 ,CUSTOMER ORDER 
(图 4-28 ) 中 的 传递 依赖 要 求 客 户 每 提交 一 个 新 订单 ， 都 要 重复 输入 客户 姓名 和 地 址 ， 而 不 
论 之 前 已 经 输入 过 多 少 次 。 训 无 疑问 ， 当 你 在 线 订 购 商 品 、 造 访 医 生 办 公 室 或 者 进行 类 似 的 
活动 时 ， 你 一 定 经 历 过 这 种 让 人 烦恼 的 请 求 。 

移 除 传递 依赖 

可 以 通过 以 下 三 个 步骤 轻易 地 移 除 关系 中 的 传递 依赖 : 

1 ) 为 每 一 个 (或 多 个 ) 是 决定 因子 的 非 主 属性 创建 一 个 新 关系 。 这 样 的 话 ， 在 新 的 关 
系 中 ， 该 属性 都 是 主键 主 。 

2 ) 将 所 有 只 依赖 于 新 关系 的 主键 的 函数 依赖 属性 从 原 关 系 移动 到 新 关系 中 。 

3 ) 将 作为 新 关系 的 主键 的 属性 留 在 原 关 系 中 作为 外 键 ， 用 来 关联 两 个 关系 。 


CustomerlD CustomerAddress CUSTOMER (3NF) 


图 4-29 ” 移 除 传递 依赖 


对 CUSTOMER ORDER 关系 实施 以 上 步骤 的 结果 如 图 4-29 所 示 。 创 建 的 新 关系 
CUSTOMER 用 来 接收 传递 依赖 的 内 容 。 决 定 因子 CustomerID 成 为 这 个 关系 的 主键 ， 
CustomerName 和 CustomerAddress 属性 被 移动 到 这 个 关系 中 。CUSTOMER ORDER 重 命 名 
为 ORDER, 保留 了 CustomerID 属性 作为 外 键 。 这 样 可 以 通过 提交 订单 的 客户 而 找到 其 订 
单 。 如 图 4-29 所 示 ， 这 些 关 系 现 在 都 属于 第 三 范式 。 

规范 化 INVOICE 视图 中 的 数据 建立 了 4 个 属于 第 三 范式 的 关系 : CUSTOMER， 
PRODUCT，ORDER 和 ORDER LINE。 图 4-30 中 的 关系 模式 表明 了 这 些 关 系 和 它们 之 间 
的 关联 (使 用 Microsoft Visio 开发 )。 记 住 ，CustomerID 是 ORDER 的 外 键 ，OrderID 和 
ProductID 是 ORDER LINE 的 外 键 。( Visio 中 显示 的 外 键 是 逻辑 数据 模型 ， 而 不 是 概念 数据 
模型 。) 同样 要 记 住 的 是 ， 联系 中 显示 了 最 小 基数 ， 尽 管 规范 化 关系 提供 不 了 最 小 基数 是 多 
少 的 证 据 。 例 如 ， 关 系 的 样本 数据 包括 没有 订单 的 客户 ， 从 而 提供 了 联系 Places 的 可 选 映 射 
基数 的 证 据 。 然 而 ， 样 本 数据 集中 即使 有 了 每 个 客户 的 订单 ， 也 不 能 证 明 是 强制 基数 。 最 小 
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基数 必须 由 业务 规则 来 决定 ， 而 不 是 报告 的 例证 、 交 和 磋 和 交易 。 对 于 特定 的 最 大 基数 ,同样 
的 论断 也 是 正确 的 〈 例 如 ， 业 务 规则 规定 一 个 订单 不 能 超过 100 个 物品 )。 


eve Customer ID 玫 - 下 Laces < 





Customer Name 
Customer Address 










Includes 








Is Ordered 


各 总 于 ORDER I yA 
一 一 Product ID 
SO PK,FK1 | Order ID 
Product Description PK,FK2 | Product ID 
Product Finish 1 
Product Standard Price wk Ordered Quantity 


图 4-30 ”INVOICE 数据 的 关系 模式 (Microsoft Visio ) 








4.5.5 决定 因子 和 规范 化 


我 们 通过 3NF 按 步骤 演示 了 规范 化 ， 然 而 ， 规 范 化 有 一 个 简单 的 捷径 。 如 果 你 回 到 最 
开始 ， 从 发 票 用 户 视 图 看 四 个 决定 因子 和 相关 的 函数 依赖 ， 会 发 现 每 一 个 都 对 应 了 图 4-30 
中 的 一 个 关系 ， 其 中 每 个 决定 因子 都 是 一 个 关系 的 主键 ， 而 非 主 键 都 是 函数 依赖 于 每 个 决 
定 因子 的 属性 。 这 里 有 个 微小 的 不 同 点 : 由 于 OrderID 决定 CustomerID、CustomerName 和 
CustomerAddress， 且 CustomerID 决定 它 的 依赖 属性 ， 因 此 CustomerID 成 为 ORDER 关系 
的 外 键 ， 代 替 了 CustomerName 和 CustomerAddress。 重 点 是 ， 如 果 你 可 以 决定 哪些 是 决定 
因子 ， 并 且 没 有 重 符 的 依赖 属性 ， 那 么 就 可 以 定义 关系 了 。 因 此 ， 可 以 同 Pine Valley 家 有 具 
发 票 的 例子 中 一 样 一 步 步 地 规范 化 ， 或 者 通过 决定 因子 的 函数 依赖 直接 建立 属于 第 三 范式 的 
关系 。 

在 完成 了 步骤 0 到 步骤 3 后， 所 有 的 非 主键 都 会 依赖 于 主键 ， 且 是 整个 主键 。 事 实 上 ， 
范式 是 函数 依赖 的 规则 ， 因 此 ， 也 是 寻找 决定 因子 和 其 关联 非 主键 的 结果 。 通 过 上 述 步 又 ， 
可 以 为 每 个 决定 因子 和 其 关联 非 主键 建立 关系 。 


4.6 合并 关系 


在 前 一 节 阐 述 了 如 何 将 EER 图 转换 成 关系 。 这 种 转换 在 采用 上 自 项 向 下 的 数据 需求 分 析 
并 在 数据 库 实现 中 开始 构建 它们 时 发 生 。 接 着 说 明了 如 何 检查 产生 的 关系 以 确定 其 是 否 属 于 
第 三 (或 更 高 ) 范式 ， 并且 在 必要 时 进行 规范 化 。 

作为 逻辑 设计 过 程 的 一 部 分 ， 规范 化 的 关系 可 能 来 自 于 许多 分 散 的 EER 图 和 (可 能 的 ) 
其 他 用 户 视图 (例如 ， 不同 领域 企业 的 自 底 向 上 或 并 行 的 数据 库 开 发 活动 和 目 顶 癌 下 的 开发 
过 程 同 时 存在 )。 举 例 来 说 ， 除 了 前 面 章节 为 了 说 明 规 范 化 过 程 而 提 到 的 发 票 ， 还 可 能 存在 
订单 表 、 账 户 平衡 报告 、 产 品 线 和 其 他 用 户 视图 ， 每 一 个 都 已 经 被 单独 规范 化 。 数 据 库 的 三 
层 模 式 体系 结构 ( 见 第 1 章 ) 鼓励 同时 使 用 自 项 向 下 和 自 底 向 上 的 数据 库 开发 过 程 。 事 实 上 ， 
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大 部 分 中 到 大 型 企业 拥有 许多 相互 独立 的 系统 开发 活动 ， 在 某 些 时 候 需 要 合 到 一 起 ,创建 一 
个 共享 数据 库 。 这 样 ， 这 些 过 程 就 造成 了 产生 的 某 些 关系 的 元 余 ， 也 就 是 说 ， 它 们 也 许 指向 
同样 的 实体 。 在 这 种 情况 下 ， 需 要 把 这 些 关 系 合 并 ， 以 此 来 消除 元 余 。 本 节 主 要 讲述 关系 的 
合并 (也 称 作 视图 集成 ，view integration)。 以 下 三 个 原因 对 理解 怎样 合并 关系 非常 重要 : 

1 ) 在 大 型 工程 中 ， 子 团队 的 工作 成 果 会 在 逻辑 设计 阶段 合并 到 一 起 ， 这 通常 需要 合并 
关系 。 

2 ) 整合 现 有 数据 库 与 新 信息 需求 ， 通 稼 需要 集成 不 同 的 视图 。 

3 ) 在 系统 生命 周期 中 ， 可 能 出 现 新 的 数据 需求 ， 因 此 有 必要 将 新 关系 与 已 经 有 的 关系 
进行 合并 。 


4.6.1 例子 
假设 为 一 个 用 户 视图 建 模 ， 结 果 生 成 下 面 的 3NF 关系 : 


EMPLOYEE1(EmployeelD, Name, Address, Phone) 
为 第 二 个 用 户 视图 建 模 ， 生 成 下 面 的 关系 : 
EMPLOYEE2(EmployeelD, Name, Address, Jobcode, NoYears) 


因为 这 两 个 关系 有 相同 的 主键 (EmployeeID)， 所 以 它们 有 可 能 描述 的 是 同一 个 实体 ， 
并 且 可 以 合并 成 一 个 关系 。 关 系 合并 的 结果 如 下 : 


EMPLOYEE(EmployeelD, Name, Address, Phone, Jobcode, NoYears) 


注意 ， 在 两 个 关系 中 都 出 现 的 属性 (在 本 例 中 如 Name) 在 合并 关系 中 只 能 出 现 一 次 。 


4.6.2 视图 集成 问题 


在 如 前 面 的 例子 一 样 合并 关系 时 ， 数 据 库 分 析 员 必须 理解 数据 的 含义 ， 并 且 准 备 好 解决 
合并 过 程 中 出 现 的 一 切 问题 。 在 这 一 节 中 ， 将 介绍 并 简要 说 明 视 图 集成 方面 的 四 个 问题 : 同 
义 词 ， 多 义 词 ， 传 递 依 赖 和 超 类 型 / 子 类 型 联系 。 

1. 同义词 

在 一 些 场合 中 ， 两 个 (或 更 多 ) 属性 可 能 有 不 同 的 名 称 ， 但 是 具有 相同 的 含义 〈 例 如 ， 
描述 一 个 实体 的 同一 个 特征 )。 这 种 属性 被 称 作 同义词 (synonym)。 例 如 ，EmployeeID 和 
EmployeeNo 可 能 就 是 同义词 。 当 合并 的 两 个 关系 包含 同义词 时 ， 应 该 为 这 个 属性 起 一 个 用 
户 允 许 的 、 唯 一 的 、 标 准 化 的 名 字 ， 并 且 要 防止 再 产生 同义词 。( 还 可 以 用 第 三 个 名 称 来 代 
替 这 两 个 同义词 。) 例如 ， 考 虑 以 下 关系 : 

STUDENT1(StudentID, Name) 

STUDENT2(MatriculationNo, Name, Address) 

在 这 种 情况 下 ,分 析 人 员 意 识 到 ，StudentID 和 MatriculationNo 指 的 都 是 一 个 人 的 学 
号 ， 并 且 是 同一 个 属性 。( 另 一 种 可 能 性 是 ， 这 两 个 属性 都 是 候选 键 ， 但 是 只 有 一 个 能 作为 
主键 ) 。 一 个 可 能 的 解决 方案 是 选择 其 中 一 个 属性 名 作为 标准 名 称 ， 比 如 StudentID。 男 一 种 
选择 是 ， 使 用 新 的 属性 名 (如 StudentNo) 来 代替 这 两 个 同义词 。 假 设 使 用 后 一 种 方法 , 合 
并 两 个 关系 将 产生 以 下 结果 : 
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STUDENT(StudentNo, Name, Address) 

当 存 在 同义词 时 ,通常 有 必要 允许 一 些 数据 库 用 户 使 用 不 同 的 名 称 来 指 代 相同 的 数据 。 
用 户 可 能 需要 使 用 熟悉 的 名 称 ， 会 包含 有 他 们 的 企业 术语 。 别 名 (alias) 是 指 一 个 属性 的 可 
选 名 称 。 许 多 数据 库 管理 系统 允许 定义 别名 ,并 可 以 与 主 属性 标签 交换 使 用 。 

2. 多 义 词 

一 个 属性 名 称 可 能 含有 多 种 含义 时 ， 被 称 作 多 义 词 (hhomonym)。 例 如 ，account 可 能 
指 银行 文 票 账户 、 储 鞋 账户、 贷款 账户 或 者 其 他 类 型 的 账户 〈 因 此 account 根据 其 不 同 的 用 
法 可 指 代 不 同 的 数据 )。 

在 合并 关系 时 ， 应 当 小 心 多 义 词 。 考 虑 以 下 例子 : 


STUDENT1(StudentID, Name, Address) 
STUDENT2(StudentlD, Name, PhoneNo, Address) 


在 与 用 户 的 讨论 中 ， 分 析 人 员 可 能 会 发 现 STUDENT1 中 的 Address 属性 指 的 是 学 生 的 
大 学 校园 地 址 ， 而 STUDENT2 中 的 同一 个 属性 指 的 是 学 生 的 永久 (或 家 庭 ) 地 址 。 为 了 解 
决 这 个 冲突 ， 我们 可 能 需要 创建 一 个 新 的 属性 名 称 ， 这 样 合并 关系 将 变 成 

STUDENT(SstudentID, Name, PhoneNo, CampusAddress, PermanentAddress) 

3. 传递 依赖 

当 两 个 属于 3NF 的 关系 合并 产生 一 个 关系 时 ， 可 能 会 产生 传递 依赖 (在 本 章 前 面部 分 介 
绍 过 )。 例 如 ， 考 虑 如 下 两 个 关系 : 


STUDENT1(StudentID, MajorName) 
STUDENT2(StudentID, Advisor) 


由 于 STUDENT1 和 STUDENT2 有 相同 的 主键 ， 这 两 个 关系 可 以 合并 为 : 
STUDENT(StudentID, MajorName, Advison) 


然而 ， 假 设 每 个 专业 只 有 一 个 导师 ， 这 样 ，Advisor 就 函数 依赖 于 Major Name: 


MajorName 一 Advisor 


如 果 上 面 的 函数 依赖 存在 ， 那 么 STUDENT 关系 就 属于 2NF 而 不 属于 3NF， 因 为 它 包 
含 了 一 个 传递 依赖 。 分 析 人 员 可 以 通过 消除 传递 依赖 从 而 建立 一 个 属于 3NF 的 关系 。Major 
Name 变 成 STUDENT 中 的 外 键 : 


STUDENT(StudentID, MajorName) 
MAJOR (MaiorName, Advisor) 


4. 超 类 型 / 子 类 型 联系 
这 些 关 系 可 能 隐藏 在 用 户 视图 或 关系 中 。 假 设 有 以 下 两 个 医疗 关系 : 


PATIENT1(PatientID, Name, Address) 
PATIENT2(PatientID, RoomNo) 


一 开始 ， 它 们 看 起 来 可 以 被 合并 为 一 个 关系 PATIENT。 然 而 ， 分 析 人 员 有 理由 假设 
有 两 种 患者 ;住院 患者 和 门诊 患者 。PATIENT1 实际 上 包含 的 是 所 有 患者 的 共同 属性 。 
PATIENT2 包含 了 只 有 住院 患者 才 有 的 属性 ( RoomNo)。 在 这 种 情况 下 ,分 析 人 员 应 该 为 这 
些 实体 创建 超 类 型 / 子 类 型 联系 : 
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PATIENT(PatientID, Name, Address) 
RESIDENT PATIENT(PatientiD, RoomNo) 
OUTPATIENT(PatientID, DateTreated) 


这 里 创建 OUTPATIENT 关系 说 明 如 果 需 要 的 话 事情 会 是 什么 样子 ， 但 如 果 不 必 要 ， 就 
只 用 给 出 PATIENT1 和 PATIENT2 的 用 户 视图 。 对 于 在 数据 库 设计 方面 视图 集成 的 进一步 讨 
论 ， 请 参阅 Navathe 等 ( 1986 ) 。 


总 结 


逻辑 数据 库 设 计 是 将 概念 数据 模型 转换 成 逻辑 数据 模型 的 过 程 。 本 章 的 重点 是 关系 数据 
模型 ， 这 是 因为 它 在 当代 数据 库 系统 中 很 重要 。 关 系数 据 模型 用 表格 形式 来 表示 数据 ， 称 作 
关系 。 关 系 是 指 有 名 称 的 二 维 数据 表 。 关 系 的 一 个 重要 性 质 是 不 能 包含 多 值 属性 。 

本 章 介 绍 了 逻辑 数据 库 设 计 过 程 的 主要 步骤。 这 个 过 程 主要 基于 EER 图 到 规范 化 关系 
的 转换 。 这 个 过 程 有 三 步 : 将 EER 图 转换 成 关系 、 规 范 化 关系 和 合并 关系 。 这 个 过 程 的 结 
果 是 属于 第 三 范式 的 一 系列 关系 ， 它 们 可 以 被 现在 的 任何 关系 数据 库 管 理 系统 实现 。 

EER 图 中 的 每 个 实体 都 被 转换 成 关系 ， 该 关系 的 主键 与 实体 类 型 相同 。 一 对 多 联系 的 
转换 是 在 “多 ” 方 加 入 外 键 ， 该 外 键 是 “一 ” 方 关 系 的 主键 。 多 对 多 联系 的 转换 是 建立 单独 
的 关系 。 该 关系 的 主键 是 组 合 键 ， 由 多 对 多 联系 的 每 个 实体 的 主键 构成 。 

关系 模型 并 不 直接 支持 超 类 型 / 子 类 型 联系 , 但 可 以 为 超 类 型 和 其 每 个 子 类 型 分 别 建 
立 表 格 (或 关系 ) 来 为 联系 建 模 。 每 个 子 类 型 的 主键 与 超 类 型 的 相同 (或 至 少 来 目 于 同一 个 
域 )。 超 类 型 必须 包含 一 个 称 为 子 类 型 鉴别 子 的 属性 ， 用 来 表示 超 类 型 的 每 个 实例 属于 哪个 
( 些 ) 子 类 型 。 

规范 化 的 目的 是 为 了 让 完整 结构 化 关系 没有 异常 (不一致 或 错误 )， 否 则 异常 会 在 关系 
更 新 或 改变 时 产生 。 规 范 化 是 基于 对 区 数 依赖 的 分 析 ， 而 函数 依赖 是 指 两 个 (或 两 组 ) 属性 
间 的 约束 。 它 可 以 通过 若干 步骤 来 完成 。 属 于 第 一 范式 ( 1NF) 的 关系 不 含 多 值 属性 或 重复 
分 组 ， 属 于 第 二 范式 (2NF) 的 关系 不 含 部 分 依赖 ， 属 于 第 三 范式 ( 3NF) 的 关系 不 含 传递 
依赖 。 我 们 可 以 用 图 (如 果 有 必要 ) 来 表示 关系 中 的 函数 依赖 ， 以 帮助 我 们 分 解 它 ， 找 到 属 
于 3NF 的 关系 。 此 外 还 定义 了 更 高 的 范式 形式 (超过 3NF)。 

在 合并 关系 时 ， 必 须 注 意 解 决 同 义 词 、 多 义 词 、 传 递 依 赖 和 超 类 型 / 子 类 型 联系 等 问 
题 。 另 外 ， 在 数据 库 管 理 系 统 定 义 关 系 之 前 ， 所 有 的 主键 都 应 该 被 描述 为 单 属性 非 智 能 键 。 


关键 术语 

Alias (别名 ) Functional dependency (函数 依赖 ) 

Anomaly ( 异 笛 ) Homonym (多 义 词 ) 

Candidate key (候选 键 ) Normal form (范式 ) 

Composite key (组 合 键 ) Normalization (规范 化 ) 

Determinant (决定 因子 ) Null ( 空 值 ) 

Entity integrity rule (实体 完整 性 规则 ) Partial functional dependency (部 分 函数 依赖 ) 
First normal form ( 1INF， 第 一 范式 ) Primary key (主键 ) 


Foreign key (外 键 ) Recursive foreign key (递归 外 键 ) 
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Referential integrity constraint (参照 完整 性 约束 ) Synonyms (同义词 ) 


Relation (关系 ) Third normal form ( 3NF， 第 三 范式 ) 
Second normal form ( 2NF， 第 二 范式 ) Transitive dependency (传递 依赖 ) 
Surrogate primary key (代理 主键 ) Well-structured relation (完整 结构 化 关系 ) 
复 习题 

a. 决定 因子 b. 函数 依赖 c. 传递 依赖 d . 递归 外 键 

e. 规范 化 人 组 合 键 g. 关系 h. 范式 


00 2 Dm nn 上 


i. 部 分 阴 数 依赖 j. 代理 主键 


. 将 下 列 术 语 与 其 对 应 的 定义 匹配 起 来 : 























完整 结构 化 关系 a. 两 个 属性 间 的 约束 
异常 b. 主键 经 一 个 非 主 属性 与 男 一 个 非 主 属性 间 的 函数 依赖 
函数 依赖 c. 在 同一 关系 中 参照 主键 
决定 因子 d. 不 含 多 值 属性 
组 合 键 e. 不 一 致 或 错误 
1NF f. 包含 少量 元 余 
2NF g. 包含 两 个 (或 更 多 ) 属性 
3NF h. 不 含 部 分 函数 依赖 
递归 外 键 i. 不 含 传递 依赖 
关系 j. 函数 依赖 的 左 半 部 分 的 属性 
传递 依赖 k. 有 名 称 的 二 维 数据 表格 
.上 比较 以 下 术语 : 
a. 范式 ; 规范 化 b. 候选 键 ; 主键 c. 部 分 依赖 ; 传递 依赖 d. 组 合 键 ; 递归 外 键 
e. 决定 因子 ; 候选 键 f 外 键 ; 主键 
.概念 数据 模型 与 逻辑 数据 模型 的 主要 区 别 是 什么 ? 
. 简要 说 明 关 系 的 6 个 重要 性 质 。 
. 描述 每 个 候选 键 都 必须 满足 的 两 个 性 质 。 
. 描述 表格 可 能 产生 的 三 种 异常 类 型 和 每 种 异常 导致 的 不 良 后 果 。 
. 给 下 列 语句 填空 ; 
a. 不 含 部 分 函数 依赖 的 关系 属于 第 范式 。 
b. 不 含 传递 依赖 的 关系 属于 第 范式 。 
c. 不 含 多 值 属性 的 关系 属于 第 范式 。 


、 什 么 是 完整 结构 化 关系 ?为 什么 完整 结构 化 关系 对 于 逻辑 数据 库 的 设计 很 重要 ? 
. 描述 E-R 图 中 的 联系 在 对 应 的 联系 数据 模型 中 主要 是 如 何 表示 的 。 
. 描述 E-R 图 的 下 列 内 容 是 如 何 转换 成 关系 的 : 


a. 和 常规 实体 类 型 ” b. 1:M 联系 c. M:N 联系 d. 超 类 型 / 子 类 型 联系 
e. 多 值 属性 f. 弱 实 体 g. 复合 属性 
. 规范 化 的 主要 目的 是 什么 ? 


. 简要 描述 合并 关系 时 经 常 产生 的 4 类 问题 和 解决 这 些 问题 的 常用 方法 。 
.列举 满足 以 下 情况 的 三 种 条 件 : 一 个 属于 第 一 范式 的 关系 也 属于 第 二 范式 。 
.解释 下 面 几 种 完整 性 约束 是 如 何在 SQL 语言 的 CREATE TABLE 命令 中 执行 的 : 


a. 实体 完整 性 b. 参照 完整 性 
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16. 在 数据 库 设 计 和 实现 阶段 (而 不 是 应 用 设计 阶段 ) 遵循 完整 性 约束 有 哪些 好 处 ? 
17. 关系 数据 模型 中 是 怎样 表示 实体 间 的 联系 的 ? 
18. 怎样 在 关系 数据 模型 中 表示 一 元 1:M 联系 ? 
19. 怎样 在 关系 数据 模型 中 表示 三 元 M:N 联系 ? 
20. 怎样 在 关系 数据 模型 中 表示 关联 实体 ? 
21. 关系 中 的 主键 与 该 关系 内 部 所 有 属性 间 的 函数 依赖 有 什么 联系 ? 
22. 在 什么 情况 下 ， 外 键 不 能 为 空 值 ? 
23. 在 数据 库 设 计时 ， 如 何 利 用 主键 来 限制 键 的 连锁 反应 ? 
24. 描述 关系 数据 模型 中 一 元 1:M 联系 与 一 元 M:N 联系 表示 方法 的 不 同 。 
25. 在 哪 三 种 情况 下 ， 建 议 为 关系 主键 建立 代理 键 ? 
问题 与 练习 
1. 对 于 下 列 第 2 章 中 的 E-R 图 : 
I. 将 图 转换 成 具有 参照 完整 性 约束 的 关系 模式 (图 4-5 就 是 这 种 模式 的 一 个 例子 ) 。 
II. 画 出 每 个 关系 的 函数 依赖 图 (参见 图 4-23 )。 
IL, 若 下 面 的 关系 不 属于 3NF， 则 将 其 转换 为 3NF。 
a. 图 2-8 b. 图 2-9b c. 图 2-11a d. 图 2-11b 
e. 图 2-15a (联系 版 本 ) f. 图 2-15b (属性 版 本 ) 
g. 图 2-16b h. 图 2-19 
2. 对 于 下 列 第 3 章 中 的 EER 图 : 
I. 将 图 转换 成 具有 参照 完整 性 约束 的 关系 模式 (参见 图 4-5 )。 
LI. 画 出 每 个 关系 的 函数 依赖 图 (参见 图 4-23 ) 。 
III. 若 下 面 的 关系 不 属于 3NF， 则 将 其 转换 为 3NF。 
a. 图 3-6b b. 图 3-7a c. 图 3-9 d. 图 3-10 e. 图 3-11 
3. 标注 出 下 列 关系 属于 的 范式 。 如 果 关 系 不 属于 3NF， 则 将 其 分 解 为 3NF 关系 。 在 适当 地 方 显示 不 
同 于 主键 隐 含 的 顺 数 依赖 。 
a. CLASS (CourseNo, SectionNo ) b.CLASS(CourseNo, SectionNo, Room) 
c. CLASS(CourseNo, SectionNo, Room, Capacity)[FD: Room 一 Capacity] 
d. CLASS(CourseNo, SectionNo, CourseName, Room, Capacity) [FD: CourseNo 一 CourseName; FD: 
Room 一 Capacity] 
4. 在 解答 下 列 第 2 章 中 的 问题 与 练习 时 ， 将 EER 图 转换 为 关系 模式 ， 画 出 函数 依赖 图 ， 并 将 所 有 关 
系 转 换 为 第 三 范式 : 
a. 第 2 草 ， 问 题写 练习 17b MILLENNIUM COLLEGE 
b. 第 2 章 ， 问题 与 练习 17g CLASS LIST 
c. 第 2 章 ， 问题 与 练习 17h FALL SEMESTER 201X 
d. 第 2 章 ， 问 题 与 练习 17i COURSE NO.: 1S 460 
* 第 2 章 ， 间 是 与 练习 23 OE 
f. 第 2 草 ， 问题 与 练习 24 INSTRUCTOR LOCATION: B 104 
5 


”图 431 显示 的 是 Millennium 大 学 的 班 |STUDENTNO. STUDENTNAME “MAJOR GRADE 


级 列表 。 将 此 用 户 视图 转换 为 3NF 关 | 一 368274 i 
系 集 。 假 设 如 下 条 件 成 立 : 40875 Cortez 
。 一 个 教师 有 唯一 的 办 公 地 点 。 hi EA 


e 一 个 学 生 有 唯一 的 专业 。 图 4-31 班级 列表 (Millennium 大 学 ) 
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e 一 | 门 课 程 和 有 唯一 的 名 字 。 
6. 图 4-32 是 简化 的 信用 卡 环境 的 EER 图 。 账 户 卡 有 两 种 : 借 记 卡 和 信用 卡 。 信 用 卡 账户 累计 用 户 在 商 
家 的 消费 。 每 笔 消 费 都 由 该 消费 的 日 期 、 时 间 和 商家 与 信用 卡 的 主键 来 唯一 标识 。 
a. 建立 关系 模式 。 b. 给 出 函数 依赖 。 c. 建立 3NF 关系 。 


CUSTOMER 
Customer ID 


Cust Name 
Cust Address 





Holds 
CD 


MERCHANT 
Merch ID 
Merch Addr 


CARD ACCOUNT 
Account ID 
Exp Date 
Card Type 





Card Type= 


DEBIT CARD CREDIT CARD 
Bank No Cur Bal 


CHARGES 


Charge Date 
Charge Time 
Amount 





图 4-32 ”银行 卡 的 EER 图 


7. 表 4-3 包含 了 一 些 部 件 及 其 销售 商 的 样本 数据 。 在 与 用 户 讨 论 这 些 数据 时 ， 发 现 部 件 号 能 唯一 地 标 
识 部 件 ， 销 售 商 名 称 唯一 地 标识 销售 商 。 

. 将 表格 转换 成 1INF 关系 ( 叫 作 PART SUPPLIER)。 说 明 与 表 中 样本 数据 的 关系 。 

. 列 出 PART SUPPLIER 的 函数 依赖 ， 标 识 候选 键 。 

. 对 于 关系 PART SUPPKIER， 标识 插 入 异常 、 删 除 异常 和 更 新 异常 。 


© TT 名 


d. 画 出 PART SUPPLIER 的 关系 模式 和 其 函数 依赖 图 。 
e. 这 个 关系 属于 第 几 范 式 ? 
f 将 PART SUPPLIER 转换 为 若干 3NF 关系 。 
g. 利用 Microsoft Visio (或 老师 指定 的 其 他 工具 ) 给 出 3NF 关系 。 
表 4-3 部件 和 销售 商 的 样本 数据 
Part No Unit Cost 
10.00 
1234 Logic chip - , 
8.00 
3.00 
5678 2.00 
Smart Chips 5.00 


8. 表 4-4 是 一 个 大 学 的 成 绩 单 关系 GRADE REPORT。 回 答 以 下 问题 : 
a. 画 出 关系 模式 并 标 出 关系 中 的 函数 依赖 。 
b. 该 关系 属于 第 几 范 式 ? 
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c. 将 GRADE REPORT 分 解 为 若干 3NF 关系 。 
d. 为 这 些 3NF 关系 男 出 关系 模式 并 给 出 参照 完整 性 约束 。 
e. 使 用 Microsoft Visio (或 老师 指定 的 其 他 工具 ) 完成 d 部 分 。 


表 4-4 成 绩 单 关系 
Grade Report 


Name Name Location 
Williams| 208Brooks |IS |IS350 |Database Mgt | Codd 
Wiliams| 208Brooks |IS |IS465 |SystemsAnalysis| Parsons | B317 | 
Baker | 104Phinips |Acctg |IS350 |Database Mgt | Codd | B104 
Baker | i04Phillips |Accte |Acct201 |FundAcetg | HH310 
Mkgt 300 















StudentID 


168300458 
168300458 
543291073 
343291073 
$43291073 





















. 表 4-5 是 一 个 航运 舱 单 。 回 答 以 下 间 题 ， 


a. 夯 出 关系 模式 并 标 出 关系 中 的 函数 依赖 。 
b. 该 关系 属于 第 几 范 式 ? 
c. 将 MANIFEST 分 解 为 若干 3NF 关系 。 


d. 为 这 些 3NF 关系 画 出 关系 模式 并 给 出 参照 完整 性 。 
e. 使 用 Microsoft Visio (或 老师 指定 的 其 他 工具 ) 完成 d 部 分 。 
表 4-5 ”航运 舱 单 
Shipment ID: 00-0001 Shipment Date: 01/10/2012 
Origin: Boston Expected Arrival: 01/14/2012 
Destination: Brazil 
Ship Number: 39 Captain: 002-15 
Henry Moore 
item Number Type Description Weight Quantity TOTALWEIGHT 
3223 BM Concrete 300 100 50,000 
Form 
3297 BM Steel 87 2,000 174,000 
Beam 
Shipment Total: 224,000 


.将 问题 与 练习 9 中 的 关系 模式 转换 为 EER 图 ， 并 给 出 你 所 做 的 假设 。 
.在 解答 下 列 章节 中 的 问题 与 练习 时 ， 将 EER 图 转换 为 关系 模式 ， 画 出 函数 依赖 图 ， 并 将 所 有 关系 


转换 为 第 三 范式 : 
a. 第 3 章 ， 问题 与 练习 12 b. 第 3 章 ， 问题 与 练习 17 


.将 图 2-15a 的 属性 版 本 转换 为 3NF 关系 。 将 图 2-15b 的 联系 版 本 转换 为 3NF 关系 。 将 这 两 组 3NF 


关系 与 图 4-10 中 的 进行 比较 。 从 这 些 不 同 点 中 你 将 得 到 什么 结论 ? 


. Millennium 大 学 的 公共 安全 部 门 拥有 一 份 校园 违法 停车 的 停车 罚单 表 。 表 4-6 是 该 罚单 表 的 秋季 


罚单 的 一 部 分 。 

a. 通过 输入 合适 的 值 ， 将 该 表 转 换 成 INF 关系 。 该 关系 中 的 决定 因子 是 什么 ? 

b. 基于 给 出 的 样本 数据 ， 画 出 函数 依赖 图 显示 关系 中 的 所 有 函数 依赖 。 

c. 给 出 一 个 或 多 个 使 用 该 关系 时 可 能 产生 的 异常 。 

d. 给 出 3NF 关系 。 在 表 中 加 入 以 Violation 为 列 头 的 列 ， 用 来 说 明 每 张 罚单 的 原因 。 该 列 的 值 为 : 
过 期 停车 收费 (罚单 代码 1 )， 禁 止 停车 (罚单 代码 2 ) 和 跨越 障碍 (罚单 代码 3 )。 

. 给 出 基数 恰当 的 E-R 图 。 
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表 4-6 Millennium 大 学 停车 罚单 
Parking Ticket Table 


ml md 
12/13/12 






14. Pine Valley 家 具 公 司 的 材料 部 经 理 拥有 一 张 公司 从 外 部 销售 商 处 采购 的 材料 物品 的 供应 商 的 清单 。 


表 4-7 是 该 清单 的 基本 数据 。 

a. 画 出 函数 依赖 图 。 你 可 以 做 如 下 假设 : 

e 每 种 材料 有 一 个 或 多 个 供应 商 。 每 个 供应 商 可 以 不 供应 物品 ， 或 供应 一 种 或 多 种 物品 。 

e 材料 的 单价 (Unit Price) 可 以 根据 销售 商 的 不 同 而 不 同 。 

e 供应 项 的 编号 (Terms Code) 能 唯一 地 标识 交易 信息 (例如 代码 2 是 指 30 天 净值 10%)。 从 一 
个 供应 商 处 订购 的 所 有 材料 的 供应 项 都 是 相同 的 。 

b. 将 该 图 分 解 为 3NF 图 集 。 

c. 画 出 这 种 情况 的 E-R 图 。 


表 4-7 Pine Valley 家 具 公 司 采购 数据 


Attribute Name Sample Value 
Material ID Apex Hardware 
Vendor ID V0 | | 


. 表 4-8 是 一 家 大 型 制造 公司 的 航运 舱 单 的 一 部 分 。 每 个 航运 舱 单 (由 Shipment# 唯一 标识 ) 唯一 标 


识 了 航运 舱 单 的 Origin、Destination 和 Distance。Origin 和 Destination 对 也 能 唯一 地 标识 Distance。 

a. 画 出 SHIPMENT 关系 的 函数 依赖 图 。 

b. SHIPMENT 属于 第 几 范式 ? 为 什么 ? 

c. 若 SHIPMENT 关系 不 属于 3NF， 则 将 其 转换 为 第 三 范式 。 利 用 SHIPMENT 中 给 出 的 样本 数据 
给 出 转换 结果 表格 。 


表 4-8 航运 舱 单 (Shipment) 关系 

_Origin | Destination | Distance | Shipment# 
Seattle | Denver | 1,537 
: , 

NT 









Shipment# 





On | Desinaton 
IE 
i 


Distance 






. 图 4-33 是 Vacation Property Rentals 的 EER 图 。 该 企业 在 几 个 州 出 租 优良 地 产 。 如 图 中 所 示 ， 有 


两 种 基本 类 型 的 地 产 : 沙 地 (beach) 和 山地 (mountain ) 。 

a. 将 EER 图 转换 为 若干 关系 ， 并 给 出 关系 模式 。 

b. 画 出 函数 依赖 图 并 确定 每 个 关系 属于 第 几 范式 。 

c. 将 不 属于 3NF 的 关系 转换 成 3NF， 并 画 出 修改 后 的 关系 模式 。 

d. 提出 一 种 完整 性 约束 来 确保 一 处 地 产 在 同一 时 间 段 内 不 会 被 出 租 两 次 。 


. 对 于 第 3 章 中 问题 与 练习 13 ， 将 得 出 的 EER 图 转换 成 若干 关系 模式 ， 画 出 函数 依赖 图 ， 并 将 所 


有 依赖 关系 换 成 3NF 关系 。 


RENTER 
Renter ID 
First Name 
Middle Initial 


Last Name 
Address 
Phone# 

E Mail 





Signs 、 


< Begin Date 
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PROPERTY 
Property ID 
Street Address 


RENTAL AGREEMENT City State 






Zip 
Agreement ID ~ Books 


V 
(\ 


End Date 


Rental Amount Property Type 





Property Type= 


“B” 《人 “JWM” 


BEACH 
PROPERTY 





Blocks to Beach {Activity} 


图 4-33 ”度假 地 租赁 关系 的 EER 图 
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MOUNTAIN 
PROPERTY 





18. 图 4-34 的 EER 图 表示 一 个 汽车 竞赛 联盟 。 将 该 图 转换 成 具有 参照 完整 性 约束 的 关系 模式 (例子 
见 图 4-5 )， 并 证 明 转 换 后 的 关系 属于 3NF。 



















TEAM 
Team ID 
Team Name 
Team Manager 





| 
| 






DRIVER 
Driver ID 
Driver Age 
Driver Name 


















PARTICIPATION 
Points Earned FINISH 


Position 
Result 


V 


RACE COMPONENT 











Race ID 












Race Title Ee 下 
Race Location Consists Of 而 
Race Date 


图 4-34 ”汽车 竞赛 联盟 的 EER 


19. 图 4-35 是 一 个 中 型 软件 销售 商 的 EER 图 。 将 该 图 转换 成 具有 参照 完整 性 的 约束 关系 模式 (例子 
见 图 4-5 )， 并 证 明 转 换 后 的 关系 属于 3NF。 
20， 观察 图 4-36 中 的 若干 关系 。 它 们 分 别 属于 第 几 范 式 ? 你 是 如 何 知道 的 ? 如 果 是 第 三 范式 ,将 关系 
转换 成 EER 图 。 在 回答 这 些 问 题 时 ， 你 不 得 不 做 哪些 假设 ? 
21. 宠物 商店 目前 采用 的 是 传统 的 平面 文件 系统 来 存储 所 有 的 信息 。 店 主 Peter Corona 希望 建立 一 个 
基于 网 络 的 数据 库 应 用 程序 ， 这 让 分 店 可 以 不 用 在 意 库存 水 平 、 订 单 等 信息 而 向 其 中 输入 数据 。 
目前 ， 库 存 和 销售 的 跟踪 数据 存储 在 一 个 文件 中 ， 其 格式 如 下 : 
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EMPLOYEE 
Emp ID 


Emp Name 


Belongs Emp Type 


REGION To COUNTRY 
Region ID ee 所 
Country Name (0 ) 


COUNTRY DEVELOPMENT DEVELOPER 
MANAGER 9< MANAGE R S< Developer Type 
Manages Supervises Supervises 


MEMBERSHI P 


Joined 
Left 


ER WARD 
ls Deputy 





Region Name 
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PROJECT 
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Proj Start Date 
Proj End Date 


TEAM 
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Team Name 
Team Start Date 
Team End Date 
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Le 
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See 
Mentors 
图 4-35 ”中 型 软件 供应 商 的 EER 图 
Attorney 
Speciality 
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Client 
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图 4-36 ”问题 与 练习 20 关系 图 


22. 
六 
24. 


23. 
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StoreName, PetName, Pet Description, Price, Cost, SupplierName, ShippingTime, QuantityOnHand, 
DateOfLastDelivery, DateOfLastPurchase, DeliveryDate1, DeliveryDate2, DeliveryDate3, DeliveryDate4, 
PurchaseDate1, PurchaseDate2, PurchaseDate3, PurchaseDate4, LastCustomerName, CustomerName1, 
CustomerName2, CustomerName3, CustomerName4 


假设 你 要 记录 所 有 的 采购 和 库存 数据 ， 比 如 谁 买 了 鱼 、 购 买 的 日 期 、 交 付 日 期 等 。 当 前 文件 格 
式 只 人 允许 记录 最 后 一 次 和 它 前 面 四 次 的 购买 和 交付 信息 。 你 可 以 假设 一 种 鱼 由 一 个 供应 商 提 供 。 
a. 给 出 所 有 的 函数 依赖 。 
b. 该 表格 属于 第 几 范式 ? 
c. 为 这 些 数据 设计 规范 化 数据 模型 ， 并 证 明 该 模型 属于 3NF。 
画 出 第 21 题 中 基于 规范 化 关系 的 E-R 图 。 
如 果 一 种 鱼 可 以 由 多 个 供应 商 提供 ， 那 么 第 21 题 与 第 22 题 将 如 何 变化 ? 
图 4-37 显示 了 一 个 为 某 重 点 大 学 提供 餐饮 服务 的 饮食 服务 机 构 的 EER 图 。 
a. 将 EER 图 转换 成 大和 十 关系 并 给 出 关系 模式 。 
b. 画 出 肾 数 依赖 图 并 说 出 每 个 关系 属于 第 几 范 式 。 
c. 将 不 是 3NF 的 关系 转换 成 3NF ， 并 画 出 修改 后 的 关系 模式 。 





MENU EVENT 
Menu ID Event ID 
Menu Description < Event Date 
Menu Type Event Location 
Event Time 
V/ 
(由 
Supervises 
Contains 
(OD 
人 小 


DISH 
Dish ID 
Dish Name 


WORK SCHEDULE 
Start Time 
End Time OO Name 
Position Salary 
{Skill} 


Prep Time 
{Ingredient} 





图 4-37 高 校 餐 饮 服 务 的 EER 图 


下 面 属性 构成 的 关系 包括 了 个 人 电脑 、 其 销售 商 、 电 脑 上 运行 的 软件 包 、 电 脑 用 户 和 用 户 权限 
等 信息 。 用 户 被 授予 在 特定 的 时 间 特 定 的 电脑 上 使 用 特定 的 软件 包 的 权利 (由 UserAuthorization 
Starts 和 UserAuthorizationEnds 属性 来 表示 ， 并 由 UserAuthorizationPassport 属性 来 保证 安全 )。 
软件 被 授权 在 特定 的 电脑 上 使 用 (可 能 同时 有 多 个 软件 包 )， 并 且 需 要 一 定 的 花费 ， 直 到 过 期 时 间 
( SoftwareLicenceExpires) 才 停 止 。 销 售 商 出 售 电脑 ， 并 且 每 个 销售 商都 有 一 个 负责 人 ,负责 人 中 
有 ID、 姓 名 和 电话 分 机 等 信息 。 每 个 个 人 电脑 都 有 特定 的 购买 价 。 属 性 如 下 : 

ComputerSerialNbr, VendorlD, VendorName, VendorPhone, VendorSupportiD, VendorSupportName, 
VendorSupportExtension, SoftwarelD, SoftwareName, SoftwareVendor, SoftwareLicenceExpires, 
SoftwareLicencePrice, UserlD, UserName, UserAuthorizationStarts, UserAuthorizationEnds, 
UserAuthorizationPassword, PurchasePrice 


基于 这 些 信息 ， 回 答 下 列 问题 。 


a. 定义 属性 间 的 函数 依赖 。 
b. 给 出 该 关系 不 属于 3NF 的 理由 。 
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c. 处 理 这 些 属性 ， 使 得 到 的 关系 属于 3NF。 


26. 下 面 的 属性 是 一 个 在 线 视频 租赁 服务 的 电影 备份 的 数据 。 每 部 电影 都 由 电影 编号 标识 ， 并 且 有 名 
称 和 导演 及 制 片 三 的 信息 。 每 部 电影 都 有 一 个 或 多 个 人 物 角色 ， 并 且 每 个 人 物 角色 都 恰好 由 一 个 
演员 扮演 (但 是 每 部 电影 中 一 个 演员 可 以 扮演 许多 角色 )。 视 频 租赁 服务 对 同一 部 电影 拥有 许多 许 
可 证 ， 每 个 电影 拷贝 版 本 都 有 一 个 许可 证 和 拷贝 编号 ， 拷 贝 编号 可 以 区 分 同一 部 电影 的 不 同 备份 ， 
但 是 不 能 区 分 不 同 电影 的 备份 。 每 个 电影 许可 证 都 有 租赁 状态 和 归还 日 期 ; 另外 ， 每 个 许可 证 都 
有 一 个 类 型 (通常 是 HD)。 租 赁 价格 由 电影 和 许可 证 类 型 确定 ,但 是 同一 个 类 型 的 所 有 许可 证 的 
价格 是 一 样 的 。 属 性 如 下 : 

Movie Nbr, Title, Director ID, Director Name, Studio ID, Studio Name, Studio Location, Studio CEO, 
Character, Actor ID, Name, Movie License Nbr, Movie License Type, Movie Rental Price, License Rental Status, 
License Return Date 
一 部 电影 的 样本 数据 集 如 下 所 示 (大 括号 中 的 数据 是 角色 /演员 数据 ， 这 里 有 四 个 不 同 角色 ): 

567, "It's a Wonderful Life”, 25, “Frank Capra”, 234, "Liberty Films”, “Hollywood, CA”, “Orson Wells”, 
{ ”George Bailey”, 245, “James Stewart” | “Mary Bailey”, 236, “Donna Reed” | “Clarence Oddbody”, 765, “Henry 
Travers” | “Henry F Potter”, 325, “Lionel Barrymore” }, 5434, “HD”, 3.95, “Rented”, "12/15/2012” 
基于 以 上 信息 ， 回 答 下 列 问题 。 

a. 定义 属性 间 的 函数 依赖 。 
b. 给 出 这 些 数 据 项 不 属于 3NF 的 原因 ， 并 指出 属于 第 几 范 式 (或 不 属于 任何 范式 )。 
c. 处 理 这 些 属性 ， 给 结果 关系 命名 并 使 其 属于 3NF。 

27. 一 个 公共 汽车 公司 负责 城市 郊区 的 公共 交通 。 该 公司 需要 管理 许多 重要 数据 : 记录 150 部 车 辆 、 
400 位 驾驶 员 、60 条 交通 线路 和 每 天 成 百 上 千 个 发 车 时 间 表 等 信息 。 男 外 ,公司 需 要 知道 每 位 加 
驶 员 被 分 配 驾 驶 哪 辆 汽车 。 
公司 可 获得 的 数据 包含 以 下 属性 : 

RoutelD, RouteStartPoint, RouteEndPoint, RouteStandardDrivingTime, ScheduleDate, ScheduledDepTime， 
ScheduledArrTime, DriverlD, DriverFName, DriverLName, DateDriverJoinedCompany, DriverDOB, VehiclelD， 
VehideMake, VehicleModel, VehiclePassangerCapacity DriverCertStartDate, DriverCertEndDate. 

这 些 属性 的 样本 数据 如 下 : 

28, Grand Avenue, Madison Street, 38, {9/12/2012, 8.30, 9.18, 8273, Mary, Smith, 5/2/2007, 3/23/1974, 
1123, GreatTrucks, CityCoach, 58, 6/10/2012, 6/9/2013 | 9/12/2012, 9.30, 10.12, 7234, John, Jones, 
10/12/2011, 12/15/1991, 5673, GreatTrucks, CityCoach 2, 62, 4/12/2012, 4/11/2013 | 9/12/2012, 10.30, 11.08, 
2343, Pat, Moore, 2/24/1982, 1/19/1958, 4323, PowerTransport, MidiBus, 32, 8/20/2012, 8/19/2013} 

样本 数据 中 公交 时 间 表 (由 属性 ScheduleDate 开始 ) 重复 了 3 次 ,用 “|” 符 号 隔 开 。 在 本 
例 中 针对 的 是 固定 的 驾驶 员 对 。 
基于 以 上 信息 ， 回 答 下 列 问 题 。 
a. 定义 属性 间 的 函数 依赖 。 
b. 给 出 这 些 数据 项 不 属于 3NF 的 原因 ， 并 指出 属于 第 几 范 式 (或 不 属于 任何 范式 )。 
c. 处 理 属 性 ， 使 其 成 为 若干 3NF 关系 ， 并 给 出 所 有 步骤 。 
d. 基于 规范 化 关系 ， 画 出 E-R 图 。 
e. 基于 上 一 问 画 出 的 E-R 图 和 描述 的 例子 ， 探 索 其 中 可 能 有 机 会 扩大 数据 模型 来 更 好 地 跟踪 公司 
的 业务 或 提高 清晰 度 的 领域 ， 如 记录 路 线 的 更 多 细节 信息 等 领域 。 
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Essentials of Database Management 


物理 数据 库 设 计 和 性 能 





学 习 目 标 

学 完 本 章 后 ， 读 者 应 该 能 够 : 

e 准确 地 定义 如 下 术语 : 字段 ， 数 据 类 型 ， 去 规范 化 ， 物 理 文件 ， 表 空间 ， 块 (extent )， 

文件 组 织 ， 顺 序 文 件 组 织 ， 索 引文 件 组 织 ， 索 引 ， 二 级 关键 字 ， 连 接 索引 ， 哈 希 文件 
组 织 ， 哈 布 算法 ， 指 针 ， 哈 硕 索 引 表 。 

e 描述 物理 数据 库 设计 过 程 、 它 的 目标 以 及 它 的 生成 物 。 

e 从 逻辑 数据 模型 中 为 属性 选择 存储 格式 。 

e 通过 平衡 各 种 重要 的 设计 因素 ， 选 择 合适 的 文件 组 织 。 

e 描述 三 种 重要 的 文件 组 织 类 型 。 

e 描述 索引 的 目的 ， 并 叙述 在 选择 索引 属性 时 的 重要 考虑 。 

e 把 关系 数据 模型 转换 为 有 效 的 数据 库 结构 ,包括 知道 何 时 和 如 何 将 逻辑 数据 模型 去 规 

范 化 。 

引言 

在 第 2 章 到 第 4 章 的 学 习 中 ， 读 者 已 经 知道 如 何 描述 和 模拟 数据 库 开发 过 程 中 概念 数据 
建 模 和 逻辑 数据 库 设 计 阶 段 的 组 织 数据 ， 并 学 习 了 如 何 使 用 EER 符号 、 关 系数 据 模型 和 规 
范 化 等 方法 ， 以 便 能 对 组 织 数据 抽象 ， 获 取 数 据 的 意义 。 可 是 ， 这 些 符号 不 能 解释 这 些 数 据 
将 如 何 处 理 和 存储 。 物 理 数据 库 设 计 的 目的 就 是 将 数据 的 逻辑 描述 转换 为 存储 和 检索 数据 的 
技术 说 明 。 目 标 是 创建 一 个 存储 数据 的 设计 ， 该 设计 将 提供 合适 的 性 能 ， 保 证 数据 库 完 整 
性 、 安 全 性 以 及 可 恢复 性 。 

物理 数据 库 设 计 不 包含 文件 和 数据 库 实 现 (也 就 是 说 ， 不 包含 数据 库 的 创建 和 加 载 )。 
物理 数据 库 设计 产生 程序 员 、 数 据 库 管理 员 以 及 其 他 在 信息 系统 构建 中 涉及 的 人 员 在 实现 阶 
段 将 要 用 到 的 技术 说 明 ， 具体 要 使 用 的 内 容 在 第 6 章 到 第 9 章 中 讨论 。 

在 这 一 章 ， 要 学 习 开 发 一 个 有 效 的 且 高 完整 性 的 物理 数据 库 设计 需要 的 基本 步骤 。 本 章 
主要 考虑 单个 的 、 集 中 式 数据 库 设 计 。 读 者 要 学 习 的 是 如 何 估 计 用 户 需 要 的 数据 库 的 数据 
量 ， 以 确定 数据 如 何 被 使 用 。 学 习 如 何 选 择 属性 值 存储 方法 ， 并 且 学 习 如 何 从 这 些 选 择 中 
挑选 能 完成 高 效率 的 数据 质量 的 方式 。 因 为 近期 给 出 的 美国 和 国际 规定 的 金融 报告 (例如 ， 
Sarbanes-Oxley 法 案 ) 中 ， 为 承诺 坚实 的 基础 设施 ， 在 物理 数据 库 设 计 中 给 出 适当 的 控制 声 
明 是 必要 的 。 因 此 ， 在 物理 设计 中 ,特别 强调 数据 质量 指标 。 读 者 还 可 以 学 习 到 为 什么 规范 
化 表格 并 不 总 是 最 好 的 物理 数据 文件 的 展现 以 及 如 何 去 规范 化 数据 以 改进 数据 检索 的 速度 。 
最 后 ， 将 要 学 习 索 引 的 应 用 ， 索 引 在 加 速 数 据 检索 上 很 重要 。 本 质 上 讲 ， 本 章 就 是 学 习 如 何 
使 数据 库 实 实在 在 地 “活跃 ”。 

读者 必须 小 心地 实施 物理 数据 库 设计 ， 因 为 在 这 个 阶段 的 决策 对 于 数据 的 可 访问 性 、 啊 
应 时 间 、 数 据 质量 、 安 全 性 、 用 户 友 好 性 和 类 似 重 要 的 信息 系统 设计 因素 都 有 很 大 的 影响 。 
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5.1 物理 数据 库 设计 过 程 


为 了 使 生活 更 容易 一 些 ， 当 在 设计 信息 系统 选择 数据 库 管 理 技术 时 ， 很 多 物理 数据 库 设 
计 决 策 是 隐藏 的 或 是 消除 了 的 。 因 为 很 多 组 织 在 操作 系统 、 数 据 库 管 理 系统 和 数据 访问 语言 
上 都 有 标准 ， 因 此 所 做 的 选择 都 必须 与 这 些 已 有 技术 相 容 。 这 样 ， 本 章 将 涵盖 那些 最 常 做 的 
决策 以 及 其 他 对 茶 些 典型 应 用 很 关键 的 决策 ， 例 如 ， 在 线 数据 获取 和 检索 。 

物理 数据 库 设 计 的 主要 目标 是 数据 处 理 的 效率 。 当 今 ， 随 着 计算 机 技术 价格 的 降低 ( 速 
度 和 空间 )， 物 理 数据 库 设 计 的 很 重要 的 一 点 是 最 小 化 用 户 与 信息 系统 的 交互 时 间 需 求 。 为 
此 ， 我 们 集中 考虑 如 何 使 物理 文件 和 数据 库 的 处 理 有 效 ， 而 对 于 极 小 化 应 用 空间 考虑 少 
一 些 。 

设计 物理 文件 和 数据 库 需 要 早期 系统 开发 阶段 收集 和 产生 的 信息 。 物 理 文 件 和 数据 库 设 
计 需 要 的 信息 包含 如 下 需求 : 

。 规范 化 关系 ， 包 括 佑 计 每 个 表 中 行 的 数量 范围 。 

。 每 个 属性 的 定义 ， 以 及 该 属性 的 物理 声明 ， 如 可 能 的 最 大 长 度 。 

e。 有 关 数 据 在 什么 地 方 和 什么 时 候 以 各 种 方式 使 用 (输入 、 检 索 、 删 除 、 更 新 ， 包 括 这 

些 事件 的 典型 频率 ) 的 描述 。 

e 有 关 啊 应 时 间 、 数 据 安 全 、 和 备份、 恢复 、 保 留 和 完整 性 的 需求 或 期 望 。 

e。 用 于 实现 该 数据 库 的 技术 (数据库 管理 系统 ) 描述 。 

物理 数据 库 设 计 需 要 多 个 关键 性 的 决策 ， 这 些 决 策 对 于 应 用 系统 的 完整 性 和 性 能 都 有 影 
啊 。 这 些 关 键 性 的 决策 包括 如 下 几 点 : 

。 从 逻辑 数据 模型 中 对 每 一 个 属性 选择 其 存储 格式 (被 称 为 数据 类 型 )。 被 选 定 的 格式 
和 相关 的 参数 都 是 为 了 最 大 化 数据 完整 性 和 最 小 化 存储 空间 。 
对 于 如 何 从 逻辑 数据 模型 中 组 织 属性 到 物理 记录 中 给 数据 库 管 理 系统 以 指导 。 虽 然 在 
逻辑 设计 中 指定 的 关系 表 的 列 是 物理 记录 内 容 的 目 然 定 义 ， 但 是 这 并 不 总 是 物理 设计 
中 属性 组 织 的 最 期 望 的 形式 。 
给 数据 库 管理 系统 指导 确定 如 何在 二 级 存储 器 (主要 是 硬盘 ) 中 安排 结构 记录 ,使 用 
一 种 结构 ( 称 为 文件 组 织 ) 以 使 单个 记录 或 成 组 记录 能 够 被 快速 地 存储 、 检 索 和 更 
新 。 对 于 错误 出 现时 的 数据 保护 和 恢复 也 应 考虑 。 
为 存储 和 连接 文件 以 便于 更 有 效 地 检索 相关 数据 选择 结构 (包括 索引 以 及 全 局 数据 库 
体系 结构 )。 
为 处 理 数据 库 查询 准备 策略 ， 查 询 策 略 会 优化 性 能 ， 并且 利 用 文件 组 织 和 已 给 出 的 过 
引 。 有 效 的 数据 库 结 构 将 是 当 查 询 和 处 理 这 些 查 询 的 数据 库 管理 系统 能 够 从 使 用 这 些 
结构 中 获 益 。 


作为 遵从 法 规 管理 基础 的 物理 数据 库 设计 


重视 物理 数据 库 设 计 的 主要 动机 之 一 是 它 形成 了 一 个 服从 有 关 金 融 报 告 的 新 的 国家 和 国 
际 规章 的 基础 。 没 有 仔细 的 物理 设计 ， 一 个 企业 就 不 能 展示 它 的 数据 是 准确 的 并 受到 很 好 保 
护 。 法 律 和 规章 (例如 ， 美 国 的 萨 班 斯 -奥克斯 ( Sarbanes-Oxley act) ( SOX) 法 案 和 国际 流 
行 的 Basel I 法案) 都 是 公众 会 计 公司 领域 主要 的 公司 和 合作 伙伴 执行 的 欺骗 案件 的 反映 。 
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SOX 的 目的 是 通过 改进 追踪 安全 法 律 的 合作 公开 的 准确 性 和 可 靠 性 来 保护 投资 者 和 其 他 目 
的 。SOX 要 求 每 一 年 的 财务 报告 包括 内 部 控制 报告 。 这 样 设 计 是 要 显示 不 仅仅 公司 的 财务 
数据 准确 ， 而 且 公 司 对 财务 数据 有 信心 ， 这 是 因为 采取 适当 的 控制 来 确保 财务 数据 安全 。 这 
些 控制 的 核心 聚焦 在 数据 库 完 整 性 之 上 。 

SOX 是 在 改进 财务 数据 报告 的 努力 进程 中 的 最 新 制度 。 反 虚假 财务 报告 委员 会 下 属 的 
发 起 人 委员 会 (COSO) 是 自愿 的 私有 组 织 ， 目 的 是 要 通过 业务 行为 准则 、 有 效 的 内 部 控制 
和 合作 监督 改进 财务 报告 的 质量 。COSO 创建 于 1985 年 ， 这 是 一 个 独立 的 私有 单位 ， 是 为 
了 支持 有 关 欺 诈 财 务 报告 ( NCFFR) 的 国家 委员 会 ， 主 要 研究 导致 欺诈 财务 报告 的 因素 。 根 
据 它 的 研究 ，COSO 为 美国 安全 与 证 券 交 易 委 员 会 (SEC) 和 其 他 法 规 单位 以 及 教育 研究 会 、 
公众 公司 和 他 们 的 独立 审计 人 员 开 发 了 推荐 书 。 信 息 和 相关 技术 控制 目标 (COBIT) 是 由 IT 
管理 研究 所 和 信息 系统 审计 控制 协会 发 布 的 开放 式 标 准 。 这 是 一 个 建筑 在 COSO 框架 上 的 
IT 控制 框架 。IT 基础 设施 库 (ITIL ) 由 英国 的 政府 商务 办 公 室 颁布 ， 致力 于 IT 服务 ， 经 常 
用 于 补充 COBIT 框架 。 

这 些 标 准 、 指 导 与 规则 都 是 聚焦 在 企业 管理 、 风 险 资产 和 数据 的 安全 与 控制 上 。 虽 然 
SOX 和 Basel II 这 样 的 法 律 需要 对 与 财务 数据 打交道 的 所 有 过 程 的 综合 审计 ， 但 能 够 通过 强 
化 基本 数据 完整 性 控制 获得 加 强 。 如 果 设 计 成 数据 库 并 且 通 过 DBMS 加 强 ， 那 么 这 样 的 防 
护 控 制 是 应 用 一 致 和 完全 的 。 因 此 ， 字 段 级 别 的 数据 完整 性 控制 在 承诺 审计 中 被 认为 是 非常 
重要 的 。 其 他 DBMS 特性 ， 比 如 第 7 章 讨 论 的 触发 器 和 存储 过 程 等 提供 了 更 进一步 的 方法 
保证 仅仅 合法 的 数据 值 可 以 被 存储 在 数据 库 中 。 而 且 ， 这 些 控制 机 制 都 能 如 同 字 段 级 别 数据 
控制 一 样 好 。 进 一 步 讲 ， 对 于 全 部 承诺 ， 所 有 数据 完整 性 控制 必须 全 部 文档 化 ， 对 DBMS 
给 出 的 这 些 控制 定义 都 要 形成 文档 。 最 后 ， 对 这 些 控制 的 修改 也 必须 要 完全 很 好 地 文档 化 修 
改 控 制 过 程 (这 样 ， 临 时 的 修改 不 能 用 于 暂时 的 好 的 设计 控制 )。 


5.2 ”设计 字段 


字段 ( field) 是 程序 设计 语言 或 数据 库 管理 系统 这 类 系统 软件 识别 的 应 用 数据 的 最 小 单 
位 。 字 段 对 应 于 逻辑 数据 模型 中 的 简单 属性 ， 在 复合 属性 情况 下 ， 字 段 对 应 其 一 个 组 成 。 

每 个 字段 声明 中 的 基本 决策 要 关注 的 是 用 于 表达 这 个 字段 值 的 数据 类 型 (或 存储 类 型 )、 
在 数据 库 中 要 维护 的 数据 完整 性 控制 以 及 DBMS 处 理 该 字段 缺失 值 的 机 制 。 其 他 的 字段 
声明 (如 显示 格式 ) 也 应 该 作为 信息 系统 声明 的 一 部 分 ,但 是 在 此 时 并 不 关注 这 些 不 党 被 
DBMS 处 理 而 是 锌 应 用 处 理 的 声明 。 


选择 数据 类 型 


数据 类 型 ( data type) 是 由 DBMS 类 系统 软 识别 的 详细 编码 模式 ， 它 表示 组 织 的 数据 。 
编码 模式 的 位 模式 常常 对 用 户 透 明 ， 但 是 存储 数据 的 空间 和 访问 数据 的 速度 是 物理 数据 库 
设计 的 结果 。 用 户 使 用 的 特定 DBMS 将 决定 用 户 的 选择 。 例 如 ， 表 5-1 列 出 了 Oracle 11g 
DBMS 的 一 些 数据 类 型 ，Oracle 11g 是 典型 的 使 用 SQL 数据 定义 和 操作 语言 的 DBMS。 有 
些 DBMS 附加 的 数据 类 型 可 以 有 货币 、 声 音 、 图 像 以 及 用 户 定义 的 数据 类 型 。 

选择 数据 类 型 涉及 4 个 目标 ， 这 些 对 于 不 同 的 应 用 有 不 同 层次 的 重要 性 : 

1 ) 表示 所 有 可 能 的 值 。 
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表 5-1 Oracle llg 中 通常 使 用 的 数据 类 型 
数据 类 型 描述 


最 大 长 度 为 4000 字符 的 变 长 字符 数据 ， 要 求 输入 字段 的 最 大 长 度 (例如 ，VARCHAR2(30) 声明 该 
字段 的 最 大 长 度 是 30 字符 )。 如 果 字 串 长 度 小 于 最 大 长 度 ， 那 么 仅仅 占用 实际 需要 的 存储 空间 

最 大 长 度 是 2000 字符 的 定 长 字符 数据 。 默 认 的 长 度 是 1 (例如 ，CHAR(5) 声明 了 一 个 有 5 个 字符 
长 度 的 字段 ， 能 够 处 理 0 到 5 字符 长 的 数值 ) 


i 字符 大 对 象 ， 最 大 能 够 存储 ( 4GB 一 1 ) * (数据 库 块 大 小 ) 的 可 变 长 度 字 符 数据 字段 (例如 ， 人 处 理 医 
嘱 或 客户 注解 ) 
大 小 为 10 ”到 10” 的 正 负 数 。 可 以 声明 精度 (数值 数据 从 小 数 点 的 左边 到 右边 的 所 有 数字 的 个 
NUMBER “| 数 ) 以 及 精度 (小 数 点 右边 的 数字 个 数 )。 例 如 : NUMBER(5) 声明 一 个 最 大 具有 5 个 数字 的 整 型 字段 ， 
NUMBER(5，2) 声明 了 一 个 不 超过 5 个 数字 且 有 2 个 数字 在 十 进 制 小 数 点 右边 
任何 从 公元 前 4712 年 元 月 一 日 到 公元 9999 年 12 月 31 日 的 日 期 。DATE 存储 的 值 包含 世纪 、 年 、 
月 、 上 日 、 时 、 分 和 秘 
BLOB 二 进 制 大 对 象 ， 最 大 能 够 存储 ( 4GB 一 1 ) * (数据 库 块 大 小 ) 的 二 进 制 数据 〈 例 如， 相片 或 声音 片段 ) 
2 ) 改进 数据 完整 性 。 
3 ) 文 持 所 有 数据 操作 。 
4 ) 极 小 化 存储 空间 。 
字段 的 优化 数据 类 型 可 以 是 : 在 最 小 空间 ， 对 于 相关 的 属性 ， 表 示 每 一 种 可 能 的 值 (而 
且 消 除 不 合法 值 ) 和 支持 需要 的 操作 (例如 ， 数 值 数据 类 型 的 算术 操作 ， 字 符 类 型 的 字符 串 
操作 ) 。 概 念 数 据 模型 中 的 属性 域 约束 对 于 该 属性 的 数据 类 型 选择 很 有 帮助 。 完 成 这 四 个 目 
标 是 微妙 的 。 例 如 ,考虑 一 个 DBMS， 其 数据 类 型 的 最 大 宽度 是 2 字 节 。 假 定 该 数据 类 型 充 
分 表示 QuantitySold 字段 。 当 对 QuantitySold 字段 汇总 时 ， 其 和 需要 用 大 于 两 个 字段 的 数据 
值 来 表示 。 如 果 DBMS 为 该 字段 上 任何 数学 结果 使 用 这 个 字段 的 数据 类 型 ， 那么 该 2 字 节 
长 的 表示 将 不 能 工作 。 某 些 数据 字段 有 特殊 的 操作 功能 ， 例 如 ， 仅 仅 DATE 数据 类 型 允许 真 
实 的 日 期 计算 。 
1. 编码 技术 
某 些 属性 有 稀 朴 的 值 集 合 ， 或 者 是 给 定 的 数据 列 很 大 ， 以 至 于 相当 多 的 存储 空间 被 
消耗 。 字 段 只 有 有 限 的 可 能 值 ， 可 以 将 其 转换 成 需要 较 少 空间 的 编码 。 考 虑 图 5-1 中 的 
Product Finish 字段 的 例子 。Pine Valley 家 具 公 司 的 产品 只 使 用 了 有 限 数 量 的 木材 : 桦木 
( Birch)， 栅 木 (Maple),， 橡木 (Oak)。 通 过 创建 编码 或 转换 表 ， 每 一 个 ProductFinish 字 
段 值 能 被 编码 置换 ， 类 似 外 键 ， 是 一 个 跨 表 引用 查找 表 (lookup table)。 这 样 做 可 以 减少 
ProductFinish 字段 的 空间 数量 ， 因 此 也 减少 PRODUCT 文件 的 空间 数量 。 这 样 会 有 附加 的 
PRODUCT FINISH 查找 表 空间 ， 当 需要 ProductFinish 字段 值 的 时 候 ， 还 需要 一 个 额外 的 对 
查找 表 的 访问 ( 称 作 连接 )。 如 果 ProductFinish 字段 不 常 使 用 或 该 字段 不 同 值 的 数量 非常 大 ， 
则 编码 的 相对 优势 就 没有 价值 。 注 意 ， 编 码 表 并 不 在 概念 或 逻辑 模型 中 出 现 。 编 码 表 是 物理 
结构 ， 以 完成 数据 处 理性 能 的 改进 ， 而 不 是 商业 值 的 数据 集 。 
控制 数据 完整 性 。 对 于 很 多 DBMS， 数 据 完整 性 控制 ( 即 控制 字段 可 能 有 的 值 ) 可 以 被 
构建 到 字段 的 物理 结构 ， 并 且 由 DBMS 对 该 字段 强制 控制 。 数 据 类 型 强制 一 种 形式 的 数据 
完整 性 控制 ， 因 为 它 可 以 限制 数据 的 类 型 (数值 或 字段 ) 以 及 字段 值 的 长 度 。 下 面 是 DBMS 
支持 的 几 种 典型 的 完整 性 控制 : 
e 默认 值 ( default value) 默认 值 是 字段 假定 取 定 的 值 ， 除 非 用 户 为 该 字段 实例 输入 明 


VARCHAR2 


CHAR 


DATE 
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确 的 值 。 给 字段 赋予 默认 值 可 以 减少 数据 登入 的 时 间 ， 因 为 值 的 登入 可 以 跳 过 。 它 也 
能 够 有 助 于 为 最 常见 的 值 减少 数据 登入 的 错误 。 


Product 表 Product Finish 查找 表 


ProductNo ProductFinis | 
ja 
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Table 
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图 5-1 编码 查找 表 的 例子 (Pine Valley 家 具 公 司 ) 


范围 控制 ( range control) 范围 控制 可 以 限制 字段 可 能 有 的 值 。 范 围 可 以 是 带 有 数字 
上 下 界 的 范围 值 ， 也 可 以 是 一 组 特定 的 值 。 范 围 控 制 必须 谨慎 使 用 ， 因 为 范围 的 限制 
也 会 随时 间 改 变 。 范 围 控 制 与 编码 的 组 合 导致 了 很 多 组 织 面 临 的 2000 年 的 问题 ， 在 
该 问题 中 ， 年 的 字段 仅仅 用 00 到 99 的 数字 表示 。 最 好 是 通过 DBMS 实现 范围 控制 ， 
因为 在 应 用 中 范围 控制 可 以 不 一 致 地 被 强制 。 它 在 应 用 中 也 比 在 DBMS 中 更 难 发 现 
和 修改 。 
空 值 控制 (null value control) 空 值 是 一 个 空 的 值 。 每 个 主键 都 必须 有 禁止 空 值 的 完 
整 性 控制 。 如 果 是 组 织 的 原则 ， 那 么 其 他 字段 也 可 以 有 空 值 控制 。 例 如 ， 大 学 中 除非 
课程 有 名 字 并 且 主 键 CourseID 具有 确定 值 ， 和 否则 不 允许 任何 课程 进入 数据 库 中 。 很 
多 字段 合法 地 具有 空 值 ， 因 此 ， 这 个 控制 应 该 仅仅 当 业 务 规则 需要 时 被 使 用 。 
参照 完整 性 ( referential integrity) 术语 参照 完整 性 在 第 4 章 中 被 定义 。 字 段 上 的 参照 
完整 性 是 一 种 范围 控制 ， 此 时 该 字段 的 值 必须 与 同一 张 表 的 另 一 行 或 不 同 表 中 的 某 一 
行 (更 常见 ) 的 某 些 字段 值 相同 。 也 就 是 说 ， 合 法 值 的 范围 来 自 于 数据 库 表 中 的 字段 的 
动态 内 容 ， 而 不 是 预定 义 的 一 组 值 。 注 意 ， 人 参照 完整 性 保证 仅仅 某 些 已 存在 的 路 表 引 
用 值 被 使 用 ， 只 有 这 样 才 是 正确 的 值 。 编 码 字 段 将 与 查找 表 的 主键 有 参照 完整 性 。 

2. 处 理 缺 失 的 数据 

当 字 段 为 空 时 ， 可 以 简单 地 不 输入 值 。 例 如 ， 假 定 客户 的 邮政 编码 字段 允许 为 空 值 ， 且 
要 按 月 和 邮编 汇总 总 销售 的 报告 。 那 么 对 于 邮编 未 知 的 客户 的 销售 该 如 何 处 理 ?” 有 两 种 处 
理 和 防止 缺失 数据 的 选择 被 提 及 : 使 用 默认 值 和 防止 缺失 值 。 缺 失 数据 是 不 可 避免 的 。 根 据 
Babad 和 Hoffer ( 1984 )， 下 面 是 其 他 几 种 处 理 缺 失 数据 的 方法 : 

e 置换 一 个 缺失 值 的 估计 值 。 例 如 ， 当 计算 每 月 产品 销售 时 ， 缺 失 销售 值 ， 可 以 使 用 一 

个 涉及 那个 产品 已 存在 的 月 平均 销售 值 的 公式 ， 索 引 那 个 月 的 全 部 产品 的 总 销售 。 这 
样 的 估计 必须 被 标签 以 使 用 户 知 道 那 不 是 实际 的 值 。 

e 追踪 缺失 数据 ， 这 样 专门 报告 和 其 他 系统 元 素 将 引起 人 们 很 快 地 去 解决 未 知 值 。 这 可 
以 通过 在 数据 库 定 义 中 设置 一 个 触发 器 来 完成 。 触 发 器 是 一 个 运行 单元 ， 它 将 在 某 个 
事件 发 生 或 时 间 区 间 段 内 被 自动 执行 。 当 空 值 或 其 他 缺失 值 被 存储 时 ， 一 个 触发 硕 可 
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以 记录 缺失 条 目 到 日 志文 件 中 ， 而 另 一 个 触发 器 可 以 周期 地 运行 以 创建 这 个 日 志文 件 
内 容 的 报告 。 

e 实施 敏感 测试 ， 这 样 缺 失 数 据 被 忽略 ， 除非 知道 一 个 值 可 以 显著 地 改变 结果 ( 即 ， 如 
果 某 个 销售 员 的 月 销售 额 大 大 超过 立 值 ， 这 会 使 人 员 的 报 柄 有 很 大 差别 )。 这 是 最 复 
杂 的 方法 ， 因 此 需要 非常 成 熟 的 程序 设计 。 这 样 处 理 缺 失 数据 的 过 程 可 以 写成 应 用 
程序 。 所 有 现代 DBMS 都 有 很 成 熟 的 程序 设计 能 力 ， 比 如 case 表达 式 、 用 户 定 义 的 
困 数 和 触发 锅 等 ， 这 样 的 逻辑 在 数据 库 中 对 全 体 用 户 有 效 而 不 需要 专门 的 应 用 程序 
议 计 ;。 


5.3 ”去 规范 化 数据 


现代 数据 库 管 理 系统 在 确定 数据 如 何 被 实际 存储 在 存储 介质 中 承担 着 一 个 逐渐 重要 的 角 
色 。 可 是 ， 数 据 库 处 理 的 有 效 性 是 受到 逻辑 关系 如 何 被 构建 为 数据 库 表 的 显著 影响 。 本 节 的 
目的 就 是 讨论 去 规范 化 作为 一 种 机 制 ， 和 常常 被 用 于 改进 数据 处 理 效率 和 快速 访问 存储 数据 。 
首先 描述 知名 的 去 规范 化 方法 : 将 多 个 逻辑 表 组 合成 一 张 物理 表 以 避免 将 相关 的 数据 从 数据 
库 中 找 出 后 组 合 在 一 起 的 需求 。 


去 规范 化 


随 着 二 级 存储 需 单 元 数据 存储 价格 的 降低 ， 存 储 空间 的 有 效 利 用 (减少 宛 余 ) 仍然 是 要 
考虑 的 问题 ， 但 已 经 不 像 过 去 那么 重要 了 。 在 大 多 数 情况 下 ， 物 理 记 录 设 计 的 主要 目标 是 有 
效 的 数据 处 理 主宰 了 设计 过 程 。 换 言 之 ， 是 速度 而 不 是 风格 的 问题 。 就 如 同 在 你 的 房间 里 ， 
只 要 能 够 找到 你 所 喜爱 的 衬衫 就 行 ， 至 于 房间 里 看 起 来 多 么 凌乱 也 无 关 紧 要 (当然 不 可 能 告 
诉 你 妈妈 ) 。 

有 效 的 数据 处 理 就 像 是 在 图 书馆 里 有 效 地 查找 书目 ， 依 赖 于 相关 数据 如 何在 一 起 放置 
( 书 或 索引 )。 通 常 ， 在 一 个 关系 中 出 现 的 所 有 属性 不 是 一 起 被 使 用 ， 而 是 常常 需要 将 来 自 不 
同 关 系 中 的 数据 放 在 一 起 来 回答 用 户 的 查询 或 生成 报告 。 这 样 ， 虽然 规 范 化 关系 解决 了 数据 
维护 异常 和 极 小 化 元 余 (和 存储 空间 ) 的 问题 ,但 是 如 果 将 其 一 对 一 地 实现 它 的 物理 记录 ， 
那么 它们 不 一 定 能 获得 有 效 的 数据 处 理 。 

一 个 完全 规范 化 的 数据 库 常 常 创建 大 量 的 表 。 对 于 频繁 使 用 的 需要 来 自 多 个 或 相关 表 中 
数据 的 查询 ，DBMS 在 每 次 执行 这 个 查询 时 ， 都 需要 耗费 相当 多 的 计算 机 资源 将 来 自 所 需 
的 每 张 表 中 的 相关 行进 行 匹 配 ( 称 为 连接 ，joining )， 以 获取 查询 结果 。 由 于 joining 操作 非 
和 常 耗 时 ， 因 此 完全 规范 化 和 部 分 规范 化 的 数据 库 之 间 的 处 理性 能 的 差别 会 很 大 。 在 早期 研究 
中 ，Inmon ( 1988 ) 给 出 了 一 个 完全 和 部 分 规范 化 数据 库 的 研究 报告 。 完 全 规范 化 数据 库 包 
含 了 8 张 表 ， 每 张 表 有 50 000 行 数据 。 部 分 规范 化 数据 库 有 4 张 表 ， 每 一 张 表 有 25 000 行 
数据 ， 另 外 还 有 一 个 部 分 规范 化 数据 库 有 2 张 表 。 测 试 结果 显示 ， 不 完全 规范 化 数据 库 比 完 
全 规范 化 数据 库 快 一 个 数量 级 。 虽 然 这 个 结果 很 大 地 依赖 了 数据 库 和 它 执行 的 处 理 类 型 ,但 
是 用 户 仍 然 应 该 仔细 地 考虑 数据 库 物 理 数据 是 否 应 该 与 规范 化 关系 完全 一 致 。 

去 规范 化 是 转换 规范 化 关系 为 非 规范 化 物理 记录 说 明 的 过 程 。 本 节 将 合理 地 评测 各 种 有 
关 去 规范 化 的 形式 和 条 件 。 一 般 来 讲 ， 去 规范 化 将 一 个 关系 分 割 为 多 个 物理 记录 ， 可 能 要 组 
合 来 自 多 个 关系 的 属性 在 一 起 成 为 一 个 物理 记录 ,或 者 是 两 种 方法 的 组 合 。 
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1. 去 规范 化 的 机 会 和 类 型 

Rogers ( 1989 ) 介绍 了 几 种 通用 的 去 规范 化 的 机 会 (图 5-2 到 图 5-4 给 出 了 三 种 情形 下 
每 一 种 规范 化 和 去 规范 化 的 例子 ): 

1 ) 一 对 一 联系 的 两 个 实体 。 即 使 是 其 中 一 个 实体 选择 性 参与 ， 如 果 大 多 数 情 况 下 存在 
匹配 的 实体 ， 那 么 将 这 两 个 关系 组 合成 一 个 记录 定义 也 是 明智 的 做 法 。( 特 别 是 当 这 两 个 实 
体 之 间 的 访问 频率 很 高 时 ,) 图 5-2 显示 了 学 生 可 能 完成 的 标准 奖学金 申请 中 的 部 分 学 生 数 
据 。 在 这 种 情况 下 ， 一 个 记录 能 被 由 来 自 STUDENT 和 SCHOLARSHIP APPLICATION 规 
范 化 关系 的 4 个 字段 形成 (假定 ApplicationID 不 再 需要 )。( 注 : 这 种 情况 下 ， 来自 可 选 实 
体 的 字段 必须 允许 有 空 值 。) 


STUDENT APPLICATION 
Student ID Submits A Application ID 
Campus Address ~ | Application Date 

Qualifications 








规范 化 关系 : 

STUDENT APPLICATION 

StudentlD | CampusAddress ApplicationID | ApplicationDate StudentID 
去 规范 化 关系 : 

STUDENT 


StudentlD CampusAddress | ApplicationDate | Qualifications 


Application Data 和 Qualification 字段 可 以 是 空 值 
图 5-2 一 种 可 能 的 非 规 范 化 情况 : 具有 一 个 一 对 一 联系 的 两 个 实体 
注 : 当 所 有 字段 都 被 存储 在 一 个 记录 中 时 ， 假 定 ApplicationID 字段 不 是 必需 的 字段 ， 但 是 如 果 应 用 数据 需要 ， 那 
么 该 字段 可 以 包括 在 内 

2 ) 多 对 多 联系 (关联 实体 ) 有 非 主 属性 。 不 是 连接 三 个 文件 从 两 个 联系 中 的 基本 实体 
抽取 数据 ， 而 是 可 以 推荐 去 组 合 一 个 实体 的 属性 到 表示 多 对 多 联系 的 记录 中 ， 这 样 避免 了 一 
个 连接 操作 。 而 且 ， 如 果 连 接 频 繁 地 出 现 ， 那 么 这 将 是 最 好 的 做 法 。 图 5-3 显示 了 来 目 不 同 
销售 商 的 不 同 物品 的 价格 报价 。 在 这 种 情况 下 , 来 自 ITEM 和 了 PRICE QUOTE 关系 的 字段 可 
以 被 组 合成 一 个 记录 ， 以 避免 不 得 不 将 这 三 个 表 连 接 在 一 起 。( 注 : 这 将 创建 相当 多 的 重复 
数据 ， 例 子 中 ，ITEM 字段 (比如 Descripiotn ) 将 对 每 一 种 价格 报价 重复 出 现 一 次 。 这 样 如 
果 重 复 的 数据 要 修改 ， 必 然 带 来 过 多 更 新 。 仔 细 地 分 析 综 合 应 用 图 ， 研 究 访问 的 频率 和 每 个 
与 VENDOR 或 ITEM 关联 的 PRICE QUOTE 的 值 ， 将 从 本 质 上 理解 这 个 去 规范 化 的 结果 。) 

3 ) 引用 数据 。 引 用 数据 存在 于 一 个 在 1 对 多 联系 的 “1” 这 边 的 实体 中 ,并 且 该 实体 
不 再 参与 其 他 数据 库 联系 。 当 “多 ”的 这 一 边 的 实体 只 有 和 较 少 的 实例 与 “1” 这 边 的 每 一 个 
实体 有 联系 时 ， 那 么 应 该 认真 地 考虑 合并 这 两 个 实体 到 一 个 记录 定义 中 。 参 见 图 5-4， 在 这 
个 例子 中 ， 多 个 ITEM 有 相同 的 STORAGE INSTRUCTIONS (存储 指令 )， 并 且 STORAGE 
INSTRUCTIONS 只 与 ITEM 相关 。 这 种 情况 下 ， 存 储 指 令 数 据 可 以 存储 在 ITEM 记录 中 ， 
当然 用 于 创建 有 宛 余 和 潜在 的 额外 数据 维护 (InstrID 不 再 需要 )。 

2. 去 规范 化 条 件 

去 规范 化 有 自己 的 准则 。Finkelstein ( 1988 ) 和 Hoberman ( 2002 ) 认为 ， 去 规范 化 能 
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增加 错误 和 不 一 致 的 机 会 (由 于 在 数据 库 中 重新 引入 了 蜡 常 )， 并 且 在 业务 规则 改变 时 ， 志 
加 了 系统 重新 设计 程序 的 工作 量 。 例 如 ， 由 于 侵犯 了 第 二 范式 使 得 同一 数据 重复 出 现 的 元 余 
副本 常常 不 能 同步 更 新 。 而 且 ， 如 果 是 这 种 情况 ， 那 么 必须 要 有 额外 的 程序 来 保证 所 有 相同 
业务 数据 更 新 为 同一 个 版 本 。 进 一 步 ， 去 规范 化 优化 了 某 些 数据 处 理 ， 但 也 使 其 他 数据 处 理 
加 大 了 开销 ， 这 样 当 不 同 的 处 理 活 动 频率 改变 时 ， 去 规范 化 获得 的 收益 就 不 复 存 在 。 去 规范 
化 几乎 总 导致 原始 数据 需要 更 多 的 存储 空间 ， 因 此 可 以 导致 对 数据 库 的 空间 也 会 更 多 (例如 
索引 )。 这 样 ， 去 规范 化 应 该 是 当 其 他 物理 设计 活动 不 足以 完成 期 望 的 处 理 时 的 行为 ， 以 获 
取 有 效 的 处 理 速度 。 z 





VENDOR PRICE QUOTE ITEM 
Vendor iD Item ID 
Address Price Description 
Contact Name 


规范 化 关系 : 
VENDOR ITEM 

















VendorlD Address 





ContactName 


Description 


PRICE QUOTE 
VendorlD 


去 规范 化 关系 : 
VENDOR ITEM QUOTE 


VendorlD ContactName VendorlD | MemlD | Deseription | Price 


图 5-3 一 种 可 能 的 非 规 范 化 情况 : 一 个 多 对 多 关系 和 非 主 属性 


STORAGE ITEM 


INSTRUCTIONS 
Control For 
Instr ID ltem ID 


Where Store Description 
Container Type 





规范 化 关系 : 
STORAGE 


InstrID WheresStore ContainerType 
emp | pesorpto | ma | 


去 规范 化 关系 : 
ITEM 


图 5-4 一 种 可 能 的 去 规范 化 情形 : 引用 数据 
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Pascal ( 2002a，2002b) 报告 了 很 多 去 规范 化 的 危险 。 去 规范 化 的 动机 是 因为 规范 化 的 
数据 库 和 常常 创建 很 多 表 ， 而 这 些 表 的 连接 操作 将 降低 数据 库 处 理 速 度 。Pascal 辩解 说 这 不 一 
定 是 真 的 ， 因 此 ， 去 规范 化 的 动机 在 某 些 情况 并 没有 优点 。 整 体 来 讲 ， 性 能 并 不 单独 地 依赖 
于 访问 表 的 数量 ， 而 是 依赖 于 这 些 表 在 数据 库 中 是 如 何 组 织 的 (使 用 文件 组 织 和 聚 签 )、 查 
询 的 合适 设计 与 实现 以 及 DBMS 对 查询 的 优化 能 力 等 。 因 此 ， 为 了 避免 在 去 规范 化 数据 库 
中 与 数据 异常 相关 的 问题 , Pascal 建议 首先 应 该 使 用 这 些 其 他 因素 的 方法 去 获得 必要 的 性 能 。 
这 样 做 常常 是 有 效 的 ， 在 需要 进一步 的 性 能 时 ， 用 户 应 该 懂得 应 用 去 规范 化 的 机 会 。 

Hoberman ( 2002 ) 已 经 写 了 一 篇 非常 有 用 的 “去 规范 化 生存 指导 ”， 总 结 了 在 决定 是 否 
要 去 规范 化 时 的 主要 因素 (以 前 已 提 到 的 概述 和 几 个 其 他 方面 )。 


5.4 ”设计 物理 数据 库 文件 


物理 文件 (physical file) 是 为 存储 物理 记录 的 目的 在 二 级 存储 (如 磁带 或 硬盘 ) 上 分 
配 的 一 个 命名 一 部 分 。 一 些 计 算 机 操作 系统 允许 物理 文件 被 分 割 成 多 个 独立 的 片 ， 有 时 称 为 
块 (extent)。 在 后 面 的 章节 中 ， 本 书 假定 物理 文件 不 被 分 割 ， 并 且 文 件 中 的 每 个 记录 的 结构 
相同 。 也 就 是 说 ， 后 续 章 节 讨论 如 何在 物理 存储 空间 中 存储 和 连接 来 自 单个 数据 库 中 的 关系 
表 中 的 行 。 为 了 优化 数据 库 处 理 的 性 能 ， 数 据 库 管理 员 (管理 数据 库 的 人 员 ) 常常 需要 更 多 
的 有 关 数 据 库 管理 系统 如 何 管理 物理 存储 空间 的 细节 。 这 个 知识 是 DBMS 专属 内 容 ， 但 却 
是 在 后 续 曹 节 中 摘 述 的 原理 ， 是 被 大 多 数 关 系 DBMS 使 用 的 物理 数据 结构 的 基础 。 

大 多 数 数据 库 管 理 系统 存储 很 多 不 同 种 类 的 数据 在 一 个 操作 系统 文件 中 。 操 作 系 统 文 
件 (operating system file) 是 指出 现在 磁盘 目录 列表 中 的 命名 文件 (例如 ， 在 个 人 计算 机 C: 
盘 目 录 中 的 文件 列表 )。 例 如 ，Oracle 中 存储 空间 的 一 个 重要 的 逻辑 结构 是 表 空 间 。 表 空间 
(tablespace) 是 一 个 命名 的 逻辑 存储 单元 ， 其 中 的 数据 来 自 于 存储 在 其 中 的 一 个 或 多 个 数据 
库 表 、 视 图 或 其 他 数据 库 对 象 。 一 个 Oracle 11g 实例 包含 很 多 表 空 间 ， 如 系统 数据 (数据 字 
典 或 关于 数据 的 数据 ) 的 两 个 表 空 间 (SYSTEM 和 SYSAUX)、 一 个 临时 的 表 空 间 (TEMP)、 
一 个 撤销 操作 的 空间 (UNDOTBSI) 以 及 一 个 或 多 个 存储 用 户 业 务 数据 的 表 空 间 。 一 个 表 空 
间 是 由 一 个 或 多 个 物理 操作 系统 文件 构成 的 。 这 样 ，Oracle 有 责任 管理 在 表 空 间 中 的 数据 存 
储 ， 尽 管 操 作 系统 对 于 管理 表 空 间 有 很 多 责任 ， 但 是 它们 所 有 都 是 有 关 操 作 系 统 文件 管理 的 
责任 〈《 即 处 理 文 件 层 安 全 、 分 配 空 间 以 及 磁盘 读 写 错误 的 响应 等 ) 。 

因为 一 个 Oracle 实例 通常 支持 多 个 用 户 的 多 个 数据 库 ， 所 以 数据 库 管 理 员 常常 创建 很 多 
用 户 表 空间 ， 这 将 有 助 于 获得 数据 库 安全 ， 因 为 数据 管理 员 可 以 为 每 个 用 户 指 定 访问 每 个 表 
空间 的 不 同 权 利 。 每 个 表 空 间 由 称 为 段 (segment) 的 逻辑 单元 组 成 (由 一 个 表 、 索 引 或 划分 组 
成 )， 而 每 个 段 又 由 块 (extent) 组 成 ,这样 ， 最后， 是 由 连续 的 数据 块 ( data block) 组 成 ， 数 
据 块 是 最 小 的 存储 单元 。 每 个 表 、 索 引 或 其 他 所 谓 的 模式 对 象 都 属于 一 个 表 空 间 ， 但 是 表 空 
间 可 以 包含 一 个 或 多 个 表 、 索 引 和 其 他 模式 对 象 。 物 理 上 ， 每 个 表 空 间 可 以 存储 在 一 个 或 多 
个 数据 文件 中 ， 但 是 每 个 数据 文件 仅仅 关联 一 个 表 空 间 和 一 个 数据 库 。 

现代 数据 库 管 理 系 统 在 管理 物理 设备 和 其 上 的 文件 的 使 用 上 有 一 个 逐渐 增加 的 主动 角 
色 ， 例 如 ， 模 式 对 象 (例如 表 和 索引 ) 分 配 到 数据 文件 是 完全 由 DBMS 控制 的 。 而 数据 库 管 
理 员 有 能 力 管理 分 配 到 表 空 间 的 磁盘 空间 以 及 在 数据 库 中 与 管理 空闲 空间 方法 相关 的 一 些 参 
数 。 由 于 这 不 是 Oracle 的 教科 书 ， 因 此 这 里 不 给 出 管理 表 空 间 的 细节 。 但 是 ， 因 为 表 空 间 
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是 任 一 数据 库 管理 系统 的 物理 存储 单元 ， 所 以 应 用 Oracle 表 空 间 设 计 和 管理 的 物理 数据 库 
设计 的 一 般 原 理 仍然 有 用 。 图 5-5 是 一 个 EER 模型 ， 它 展示 了 在 Oracle 环境 中 与 物理 数据 
库 设 计 相 关 的 各 种 物理 和 逻辑 数据 库 术 语 之 间 的 联系 。 


Oracle 


包 NE 
导 村 
. 仆 王 再 
操 作 存储 在 Oracls 由 i 组 成 了 了 由 i 组 
系统 文件 瞩 本 Bx S 


Oracle 用 户 数据 表 EE 
专用 表 空 间 空间 


图 5-5 _ Oracle 11g 环境 中 的 DBMS 术语 


5.4.1 文件 组 织 


文件 组 织 (file organization ) 是 一 种 在 二 级 存储 设备 上 物理 地 安排 文件 记录 的 技术 。 在 
现代 关系 DBMS 中 ， 用 户 不 需要 设计 文件 组 织 ， 但 是 可 以 为 表 或 物理 文件 选择 组 织 方 式 和 
它 的 参数 。 在 数据 库 中 为 特定 的 文件 选择 文件 组 织 时 ， 要 考虑 如 下 7 个 重要 因素 : 

1 ) 快速 数据 检索 

2 ) 高 通 量 地 处 理 数据 输入 和 维护 事务 

3 ) 有 效 的 存储 空间 利用 

4 ) 保护 失败 和 数据 丢失 

5 ) 极 小 化 重新 组 织 需 求 

6 ) 适应 生长 

7 ) 对 非法 使 用 的 安全 

通常 ， 上 述 这 些 目 标 互 相 有 了 矛盾， 用 户 应 该 在 可 用 的 资源 中 选择 一 种 可 以 合理 平衡 这 些 
准则 的 文件 组 织 。 

本 章 考 虑 如 下 几 种 基本 文件 组 织 : 顺序 、 索 引 和 哈 硕 文件 组 织 。 图 5-6 使 用 某 个 大 学 运 
动 队 的 昵称 数据 逐一 给 出 了 这 些 组 织 的 图 例 。 

1. 顺序 文件 组 织 

在 顺序 文件 组 织 中 ， 文件 中 的 记录 是 根据 主键 值 顺序 存储 的 (参见 图 5-6a)。 为 了 定位 


170 党 三 分 “发 据 订 褒 矿 






文件 开始 
Ti 


"| 


| 











Seminoles 


b) 索引 文件 组 织 
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c) 哈 布 文件 组 织 
图 5-6 文件 组 织 比较 
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某 个 记录 ， 程 序 必须 规范 地 从 文件 的 开始 进行 扫描 ， 直 到 要 查找 的 记录 被 定位 。 一 个 大 众 
化 的 顺序 文件 的 例子 是 在 电话 目录 的 白 页 中 人 的 字母 列表 (此 处 忽略 可 以 包括 在 目录 中 的 索 
引 )。 顺 序 文件 与 其 他 两 种 文件 组 织 的 能 力 比 较 在 表 5-2 中 给 出 。 由 于 它 的 不 灵活 性 ， 因 此 
顺序 文件 不 在 数据 库 中 使 用 ,但 可 以 在 备份 数据 库 中 数据 的 文件 中 使 用 。 


表 5-2 不 同文 件 组 织 的 特性 比较 


文件 组 织 
比 
一 一 险 项 

ne am 但 是 要 i he 需要 额 
主键 上 的 顺序 检索 | ”非常 快 和 除非 使 用 哈 希 索引 
主键 上 的 随机 检索 非常 忆 
多 键 检索 可 以 ,但 需要 全 表 扫 描 非常 快 不 可 能 ， 除 非 使 用 哈 希 索引 

会 产生 浪费 的 空间 或 需要 重 | ”如 果 空 间 被 动态 分 配 ， 则 a 
删除 记录 组 织 容易 ， 但 是 需要 索引 维护 ”| ”非常 容易 

x = 

添加 新 纪录 非常 容易 ， 但 是 具有 同一 地 址 





的 多 个 键 需要 额外 工作 量 
更 新 记录 非常 容易 

2. 索引 文件 组 织 

索引 文件 组 织 (indexed file organization) 中 ， 记 录 既 不 是 按 顺序 也 不 是 非 顺 序 存 储 ， 索 
引 的 创建 使 应 用 程序 软件 定位 单个 记录 (参见 图 5-66 )。 类 似 于 图 书馆 中 的 卡片 目录 ， 索 
引 (index) 是 一 个 表 ， 它 用 于 在 文件 中 定位 某 个 满足 某 些 条 件 的 记录 。 每 一 个 索引 条 目 对 应 
有 一 个 或 多 个 记录 的 键 值 。 索 引 可 以 指 回 唯 一 记录 (主键 索引 ， 比 如 产品 记录 的 ProductID 
字段 的 索引 )， 或 者 是 指向 潜在 的 多 个 记录 。 人 允许 一 个 索引 条 目 对 应 多 个 记录 的 索引 称 作 二 
级 键 ( secondary key) 索引 。 二 级 键 索 引 对 于 支持 很 多 报告 生成 需求 和 提供 快速 的 临时 (ad 
hoc) 数据 检索 很 重要 。 其 例子 可 以 是 产品 表 上 ProductFinish 列 上 的 索引 。 由 于 索引 在 关系 
DBMS 中 被 大 量 使 用 ， 且 选择 何 种 索引 以 及 如 何 存储 索引 条 目 对 于 数据 库 处 理性 能 有 很 大 影 
响 ， 因 此 对 索引 文件 组 织 的 讨论 比 其 他 类 型 的 文件 组 织 更 加 详细 。 

有 些 索引 结构 对 于 表 中 行 如 何 存储 有 影响 ， 而 有 些 索引 结构 与 行 的 存储 位 置 无 关 。 因 为 
索引 的 实际 结构 不 影响 数据 库 设 计 ， 且 在 写 数 据 库 查 询 时 也 不 重要 ， 因 此 本 章 中 并 不 讨论 索 
引 的 实际 物理 结构 。 这 样 ， 图 5-6b 可 以 被 认为 是 索引 如 何 被 使 用 的 逻辑 视图 ， 而 不 是 数据 
如 何 被 存储 在 索引 结构 中 的 物理 视图 。 

事务 处 理应 用 需要 对 查询 作 快 速 响应 ， 它 涉及 一 个 或 几 个 相关 的 表 的 行 。 例 如 ， 为 了 加 
入 一 个 客户 的 订单 ， 订 单条 目 应 用 需要 快速 地 发 现 特定 的 客户 表 行 、 几 个 该 订单 购买 的 项 目 
的 产品 表 行 以 及 基于 客户 所 需 产 品 (如 产品 finish) 的 特征 的 其 他 一 切 可 能 的 产品 表 行 。 结 
果 是 ， 应 用 需要 在 相关 的 表 中 添加 一 个 客户 订单 和 订单 行 。 至 此 ， 已 讨论 的 索引 类 型 对 查找 
少数 特定 表 行 的 应 用 都 很 有 效 。 

其 他 常用 索引 类 型 ， 特 别 是 在 数据 仓库 和 其 他 决策 支持 应 用 (参见 第 9 章 ) 中 是 连接 索 
引 。 在 决策 支持 应 用 中 ， 数 据 访问 趋向 于 需要 与 男 一 个 非常 大 表 有 关 的 所 有 行 (例如 ， 所 有 
从 同一 家 商店 购买 物品 的 客户 )。 连 接 索 引 (join index) 是 两 个 或 多 个 表 中 具有 相同 值 域 的 
列 上 的 索引 。 人 例如， 参考 图 5-7a， 其 中 有 两 个 表 Customer 和 Store， 每 个 表 上 都 有 City 列 。 
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City 列 上 的 连接 索引 确定 了 这 两 个 表 具 有 相同 City 值 的 行 。 由 于 有 很 多 数据 仓库 的 设计 方 
法 ， 因 此 有 高 频率 地 查找 在 同一 城市 中 的 商店 和 客户 数据 (事实 ) 的 查询 需求 (或 类 似 的 路 
多 维 的 事实 连接 )。 图 5-7b 表示 连接 索引 的 另外 一 种 可 能 应 用 。 在 这 种 情形 ， 连 接 索引 预先 
计算 出 匹配 Order 表 与 关联 的 Customer 表 中 客户 的 外 键 ( 即 关 系 连接 操作 的 结果 ， 这 在 第 6 
章 中 讨论 )。 简 而 言 之 ， 连 接 是 查找 在 同一 个 或 不 同 表 中 匹配 某 个 条 件 的 值 的 行 。 


Customer 


10004 |C3861 |Davies |Toledo Toledo | KT 





CustRowID | StoreRowID 上 Sommon /a e* 
10001 |20001 |Dayton 





* 这 一 列 可 以 包括 也 可 以 不 包括 ， 根 据 需 要 确定 。 连 接 索 引 可 以 在 这 三 列 上 任意 存储 。 
有 时 创建 两 个 连接 索引 ， 一 个 如 上 所 示 ， 另 一 个 可 以 是 两 个 互 逆 的 RowID 列 。 
a) 公共 非 主键 列 的 连接 索引 


Order Customer 
RowD [ordert [oroer cos | 













Cust#(PK) | CustName |Gity 



















b) 匹配 外 键 (FK) 和 主键 (PK) 的 连接 索引 
图 5-7 连接 索引 


连接 索引 按 行 形 式 被 创建 并 分 配 到 数据 库 中 ， 因 此 该 索引 也 如 同 前 面 已 讨论 过 的 索引 一 
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样 需要 随时 更 新 。 如 果 没 有 图 5-7a 中 数据 库 中 的 连接 索引 ， 那 么 任何 要 查找 同一 城市 中 商 
店 和 客户 的 查询 都 需要 每 执行 一 次 该 查询 就 要 执行 一 次 等 价 连接 索引 的 计算 。 对 于 非常 大 的 
表 ， 将 一 个 表 中 的 所 有 行 与 另外 一 个 也 可 能 很 大 的 表 中 的 行 匹配 是 非常 耗 时 的 计算 ， 因 此 也 
将 严重 延迟 对 该 联机 查询 的 响应 。 在 图 5-7b 中 ， 连 接 索 引 为 DBMS 提供 空间 以 查找 相关 表 
行 信息 。 连 接 索 引 类 似 其 他 索引 ， 通 过 额外 的 存储 空间 和 索引 维护 开销 ， 查 找 匹配 指明 条 件 
的 数据 节省 了 查询 处 理 时 间 。 为 新 的 应 用 使 用 数据 库 ， 如 数据 仓库 和 联机 决策 支持 ， 导 致 了 
新 型 索引 的 开发 。 这 里 鼓励 用 户 调研 自己 所 使 用 的 数据 库 管 理 系统 的 索引 能 力 ， 这 样 ， 当 使 
用 每 种 类 型 索引 和 如 何 调试 索引 结构 性 能 时 会 有 全 面 理解 。 

3. 哈 希 文件 组 织 

在 哈 希 文件 组 织 中 ， 每 个 记录 的 地 址 是 由 使 用 的 哈 希 算法 确定 的 (参见 图 5-6c)。 哈 希 
算法 是 一 个 将 主键 值 转换 为 记录 地 址 的 程序 。 虽 然 有 几 个 哈 希 文件 的 变种 ， 但 大 多 数 情况 下 
记录 不 是 被 顺序 地 分 配 ， 而 是 根据 哈 希 算法 。 因 此 顺序 数据 处 理 不 实际 。 

典型 的 哈 希 算法 使 用 除法 技术 ， 其 方法 是 将 每 个 主键 值 除 以 一 个 合适 的 素数 ， 然 后 用 余 
数 作 为 相应 的 存储 位 置 。 例 如 ， 假 定 一 个 企业 有 近 1000 名 员工 记录 在 磁盘 上 存储 。 合 适 的 
素数 是 997， 因 为 它 接近 1000。 考 虑 员工 12396 的 记录 ， 当 用 其 除 以 997 时 ,余数 是 432， 
这 样 该 记录 被 存储 在 文件 的 432 位 置 。 另 一 种 技术 (在 这 里 不 讨论 ) 必须 要 用 来 解决 重复 
(或 溢出 ) 问题 : 当 使 用 除法 /余数 方法 时 ， 两 个 或 多 个 键 被 散 列 到 同一 个 地 址 (名 为 “hash 
clash”) 。 

哈 希 的 限制 之 一 是 因为 数据 表 行 的 定位 由 哈 希 算法 给 出 ， 仅 仅 只 有 一 个 键 能 用 于 基于 哈 
希 的 (存储 和 ) 检索 。 哈 希 和 索引 能 够 组 成 哈 希 索引 表 来 克服 这 个 限制 。 哈 希 索 引 表 (hash 
index table) 使 用 哈 硕 将 键 映 射 到 索引 (有 时 也 称 为 分 散 索 引 表 ，scatter index table) 中 的 一 
个 位 置 ， 该 位 置 中 有 一 个 指针 (pointer) (能 用 来 定位 相关 字段 或 数据 记录 的 目标 地 址 的 数据 
字段 ) 指向 与 该 哈 希 键 匹配 的 实际 数据 记录 。 索 引 是 哈 希 算法 的 目标 ， 但 是 实际 数据 是 与 由 
哈 硕 产 生 的 地 址 分 开 存储 。 因 为 哈 希 产生 索引 中 的 一 个 位 置 ， 因 此 表 行 能 被 独立 于 哈 希 地 
址 存储 ， 可 以 使 用 任何 一 种 文件 组 织 ， 只 要 对 数据 表 有 意义 就 行 ( 即 顺序 或 首次 有 效 空间 )。 
这 样 ， 与 最 纯粹 的 哈 希 模式 不 同 但 与 其 他 索引 模式 一 样 ， 在 一 个 数据 表 上 可 以 有 多 个 主键 或 
二 级 键 ， 每 一 个 有 自己 的 哈 希 算法 和 索引 表 。 

另外 ， 由 于 索引 表 比 数据 表 小 得 多 ， 这 样 设计 索引 会 比 设计 消耗 更 多 空间 的 数据 表 更 方 
便 ， 以 减少 键 冲突 或 溢出 。 索 引 虽 然 带 来 了 额外 的 存储 空间 以 及 索引 空间 存储 和 维护 开销 ， 
但 是 也 为 数据 检索 增加 了 灵活 性 和 速度 。 哈 希 索引 表 的 另 一 个 应 用 是 在 某 些 使 用 并 行 处 理 的 
数据 仓库 数据 库 技术 中 。 在 这 种 情形 下 ，DBMS 能 够 在 存储 设备 间 均 衡 地 分 配 数据 表 行 ， 以 
便 能 较 好 地 在 并 行 处 理 器 上 公平 地 分 配 工作 ， 而 利用 哈 希 和 索引 可 以 快速 地 找到 期 望 的 数据 
存储 在 哪个 处 理 器 上 。 

如 前 所 述 ，DBMS 将 掌控 任何 哈 希 文件 组 织 的 管理 。 用 户 不 必 关 心 处 理 溢 出、 访问 索引 
或 哈 希 算法 等 。 用 户 关 心 的 是 ， 作 为 一 个 数据 库 设计 者 ， 要 理解 不 同文 件 组 织 的 性 质 ， 以 便 
于 在 所 设计 的 数据 库 和 应 用 中 能 够 合理 地 选择 数据 库 类 型 来 处 理 所 需 要 的 文件 组 织 。 另 外 ， 
理解 DBMS 使 用 的 文件 组 织 性 质 能 够 帮助 查询 设计 者 利用 文件 组 织 性 质 的 方法 写 出 查询 。 
如 同 在 第 6 章 和 第 7 章 中 所 见 到 的 ， 很 多 查询 可 以 用 不 同 的 SQL 语句 表达 ， 可 是 ,不 同 的 
查询 结构 可 能 导致 DBMS 采用 不 同 的 执行 步骤 来 实现 查询 。 如 果 能 知道 DBMS 是 如 何 利用 
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文件 组 织 的 〈 例 如 ， 什 么 时 候 和 如 何 使 用 索引 ， 什 么 时 候 使 用 哈 希 算法 等 )， 就 可 以 设计 更 
好 的 数据 库 和 更 有 效 的 查询 。 
当 设计 物理 文件 和 数据 库 时 ， 有 三 个 文件 组 织 家 族 (涵盖 了 大 多 数 文件 组 织 ) 可 以 被 使 
用 。 虽 然 可 以 构建 更 复杂 的 结构 ， 但 是 它们 不 能 够 在 数据 库 管理 系统 中 使 用 。 
表 5-2 汇总 了 顺序 、 索 引 和 哈 希 文件 组 织 的 特性 比较 。 用 户 应 阅读 该 表 并 研究 图 5-6 以 
明白 为 什么 每 个 比较 特性 都 是 正确 的 。 


5.4.2 ”对 文件 设计 控制 


数据 库 文件 的 一 个 特有 的 方面 是 ， 当 数据 库 文件 被 破坏 时 ， 用 户 可 以 有 设计 控制 类 型 的 
选择 ， 这 个 控制 可 用 于 保护 文件 被 破坏 、 污 染 或 被 重 构 造 。 因 为 数据 库 文件 是 由 DBMS 用 
合适 的 特征 格式 存储 的 ， 所 以 这 里 存在 基本 的 访问 控制 。 用 户 也 许 要 附加 有 关 字 段 、 文 件 或 
数据 库 的 安全 控制 。 文 件 在 其 生命 周期 的 某 一 点 可 能 遭遇 破坏 ， 因 此 ， 迅 速 地 重新 存储 被 损 
坏 的 文件 很 重要 。 备 份 过 程 提 供 文 件 和 改变 该 文件 的 事务 的 副本 。 当 文件 遭 到 损坏 时 ， 文 件 
副本 或 当前 文件 以 及 事务 日 志 被 用 来 恢复 文件 到 一 个 没有 破坏 的 状态 。 用 安全 术语 讲 ， 最 有 
效 的 方法 是 加 密 文 件 内 容 ， 这 样 具有 访问 解密 过 程 的 程序 才能 访问 这 些 文件 内 容 。 


5.5 ”使 用 和 选择 索引 


大 多 数 数据 库 操作 都 需要 定位 满足 某 些 条 件 的 行 (或 行 集合 )。 对 于 一 个 TB 级 大 小 的 现 
代数 据 库 ， 如 果 没 有 一 定 的 帮助 ， 定 位 数据 就 如 同 “ 大 海 捞 针 ”一 样 困难 ， 或 者 使 用 更 现代 
的 术语 讲 ， 就 如 同 没 有 搜索 引擎 的 帮助 来 查找 互联 网 信息 一 样 。 例 如 ， 要 查找 给 定 邮 编 的 所 
有 客户 或 某 个 专业 的 所 有 学 生 。 扫 描 表 中 的 每 一 行 ， 查 找 要 找 的 那 一 行 ， 可 能 是 不 可 期 待 地 
缓慢 ， 特 别 是 当 数 据 库 非常 大 的 时 候 ， 就 如 同 在 现实 的 应 用 中 一 样 。 使 用 索引 ， 如 前 所 述 ， 
就 能 够 大 大 加 速 这 个 处 理 ， 因 此 ， 定 义 索引 是 物理 数据 库 设计 的 重要 组 成 部 分 。 

如 同 索 引 那 一 节 的 描述 ， 文 件 上 的 索引 可 以 是 主键 索引 ， 也 可 以 是 二 级 键 索引 ， 也 可 以 
二 者 都 有 。 为 每 张 表 创建 主键 索引 是 常见 的 情形 ， 索 引 本 身 是 个 表 ， 具 有 两 列 : 键 以 及 该 记 
录 的 地 址 ， 或 是 含有 该 键 值 的 记录 。 对 于 主键 ， 每 个 键 值 仅 有 一 个 索引 条 目 存 在 。 


5.5.1 创建 唯一 键 索引 


假设 Customer 表 有 主键 CustomerID 。 使 用 如 下 SQL 命令 可 以 在 此 字段 上 创建 唯一 键 
索引 : 


CREATE UNIQUE INDEX Custindex_PK ON Customer_T(CustomerlD); 


在 这 个 命令 中 ，CustIndex_PK 是 创建 用 于 存储 索引 条 目的 索引 文件 名 。ON 子 句 指明 
哪个 表 建 索引 并 指明 构成 索引 键 的 列 。 当 该 命令 被 执行 时 ，Customer 表 中 已 存在 的 记录 都 
将 被 索引 。 如 果 CustomerID 值 有 重复 ，CREATE INDEX 命令 将 失效 。 一 旦 索引 被 建立 ， 
DBMS 将 拒绝 任何 对 Customer 表 上 违反 CustomerID 唯一 性 约束 的 数据 插入 和 更 新 。 注 意 ， 
每 一 个 唯一 性 索引 的 创建 都 为 DBMS 带 来 了 验证 表 中 每 一 行 的 插入 和 更 新 是 否 违 反 唯一 性 
约束 的 开销 。 稍 后 在 学 习 何 时 创建 索引 问题 时 ， 会 再 次 讨论 这 个 问题 。 
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当 组 合 唯一 键 存在 时 ， 可 以 在 ON 子 句 中 列 出 所 有 唯一 键 的 元 素 。 例 如 ， 客 户 订单 
line 项 目 表 有 组 合 唯 一 键 OrderID 和 ProductID。 为 OrderLine_T 表 创 建 该 索引 的 SQL 命令 
如 下 : 

CREATE UNIQUE INDEX Linelndex_PK ON OrderLine_T(OrderlD, ProductID); 


5.5.2 创建 二 级 ( 非 唯一 ) 键 索引 


数据 库 用 户 和 常常 需要 基于 各 种 不 是 主键 的 属性 值 做 关系 行 的 检索 。 例 如 ， 在 Product 表 
中 ， 用 户 可 以 检索 满足 如 下 组 合 条 件 的 记录 : 

e 所 有 果子 的 产品 (Description="Table") 

e 所 有 松木 家 具 (ProductFinish="Oak") 

e 所 有 起 居室 家 具 (Room="DR" ) 

e 所 有 低 于 $500 价格 的 家 具 (Price < 500 ) 

为 了 加 速 这 些 检索 ， 可 以 为 每 个 检索 的 属性 创建 一 个 索引 。 例 如 ， 可 以 在 Product 表 的 
Description 字段 上 创建 非 唯一 索引 的 SQL 命令 如 下 : 

CREATE INDEX Desclndex_FK ON Product_T(Description); 


注意 ，UNIQUE 术语 不 能 用 于 二 级 ( 非 唯一 ) 键 属性 ， 因 为 每 个 属性 值 可 能 有 重复 。 如 
同 唯一 键 ， 二 级 键 索引 也 能 在 组 合 属性 上 创建 。 


5.5.3 何 时 使 用 索引 


在 物理 数据 库 设计 阶段 ， 用 户 必须 选择 使 用 哪个 属性 来 创建 索引 。 这 就 存在 通过 索引 改 
进 检 索性 能 和 由 于 对 文件 中 的 索引 记录 执行 插入、 删除 、 修 改 操 作 所 带 来 的 昂贵 的 维护 费 
用 而 引起 的 性 能 降低 之 间 的 权衡 折 中 。 这 样 ， 数 据 库 索 引 应 该 主要 是 支持 数据 检索 ， 如 数据 
仓库 应 用 和 决策 文 持 等 。 而 索引 支持 事务 处 理 和 其 他 具有 很 多 更 新 需求 的 数据 库 应 用 时 要 说 
慎 ， 因 为 索引 将 引起 额外 开销 。 

下 面 是 为 关系 数据 库 选 择 索 引 的 一 些 规 则 : 

1 ) 在 较 大 的 表 上 索引 多 是 有 用 的 。 

2 ) 为 每 个 表 的 主键 声明 一 个 唯一 索引 。 

3 ) 索引 对 频繁 出 现在 SQL 命令 的 WHERE 子 句 中 的 用 于 选择 行 的 列 有 用 (例如 ， 
WHERE ProductFinish ="Oak"， 则 ProductFinish 索引 将 加 速 检 索 )， 或 者 是 链接 (连接 ) 
表 (例如 ,WHERE Product TProductID = Orderline_ TProductID ， 则 在 OrderLine T 表 上 
ProductID 上 的 二 级 键 索 引 和 在 Product_TT 表 上 ProductID 上 的 主键 索引 将 改进 检索 性 能 ) 。 
在 后 一 种 情形 ， 索 引 是 OrderLine T 表 上 的 外 键 ， 用 于 连接 表 。 

4) 对 ORDERBY (排序 ) 和 GROUPBY ( 聚 类 ) 子 句 中 引用 的 属性 使 用 索引 。 对 这 些 子 
句 要 非常 小 心 。 必 须要 确保 DBMS 事实 上 会 使 用 这 些 子 句 中 的 属性 索引 (例如 ，Oracle 使 
用 ORDERBY 子 句 中 的 属性 索引 ， 但 不 使 用 GROUPBY 子 句 中 的 索引 )。 

5 ) 当 属 性 的 值 多 变 时 使 用 索引 。Oracle 建议 ， 当 属性 的 不 同 值 少 于 30 时 索引 没有 用 ， 
只 有 属性 的 不 同 值 超过 100 后 索引 才 有 用 。 类 似 地 ， 仅 当 使 用 索引 的 查询 结果 不 超过 文件 中 
全 部 记录 的 20% 时 索引 才 有 用 (Schumacher，1997 )。 
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6 ) 在 一 个 具有 长 值 的 字段 上 建 索 引 前 ， 先 考虑 创建 这 个 值 的 压缩 版 (用 替代 键 编码 该 
字段 )， 然 后 在 编码 的 版 本 上 建 索引 ( Catterall，2005 ) 。 在 长 索引 字段 上 建 大 索引 比 小 索引 
的 处 理 要 慢 。 

7) 如 果 索 引 的 键 准 备用 于 确定 记录 存放 的 位 置 ， 则 该 索引 的 键 应 该 是 替代 键 ， 从 而 使 
值 可 以 均衡 地 分 布 在 存储 空间 ( Catterall，2005 )。 很 多 DBMS 创建 数字 序列 ， 这 样 每 个 新 
加 入 表 中 的 元 组 被 赋予 这 个 序列 中 的 下 一 个 数字 ， 这 对 于 创建 替代 键 通常 是 充分 的 。 

8 ) 检查 所 使 用 的 DBMS 上 是 否 有 对 每 个 表 上 可 以 创建 的 索引 数 的 限制 。 一 些 系统 不 允 
许 超过 16 个 索引 ， 且 限制 索引 键 值 的 大 小 (例如 ， 每 个 组 合 值 不 能 超过 2000 字 节 等 )。 如 
果 系 统 有 这 样 的 限制 ， 则 需要 选择 那些 最 能 带 来 性 能 改进 的 二 级 键 。 

9 ) 对 有 空 值 的 属性 建 索 引 要 非常 小 心 。 很 多 DBMS 空 值 行将 不 在 索引 中 被 引用 (这 样 
基于 属性 值 NULL， 它 们 将 不 被 索引 查找 发 现 )。 这 样 的 查找 必须 使 用 扫描 文件 的 方式 。 

索引 选择 在 物理 数据 库 设计 中 是 最 重要 的 问题 ,但 是 数据 库 性 能 的 改进 并 不 只 有 这 一 
种 方法 。 还 有 其 他 一 些 解决 这 个 问题 的 方法 ， 如 减少 重 定位 记录 的 开销 、 优 化 文件 中 额外 
的 或 所 谓 的 自由 空间 的 使 用 以 及 优化 查询 处 理 算法 等 (参见 Lightstore 、Teorey 和 Nadeau， 
2007， 有 关 增 强 物理 数据 库 设 计 和 效率 等 其 他 方法 的 讨论 )。 因 为 在 大 多 数 实例 中 期 望 数 据 
处 理性 能 能 有 所 改进 ， 所 以 在 本 章 的 下 一 节 中 将 简洁 地 讨论 查询 优化 问题 ， 这 个 优化 能 够 被 
用 于 支配 DBMS 如 何 使 用 包含 的 数据 库 设 计 选 项 。 


5.6 为 优化 查询 性 能 设计 数据 库 


物理 数据 库 设计 的 主要 目的 是 优化 数据 库 处 理性 能 。 数 据 库 处 理 包 括 添 加 、 删 除 、 修 改 
数据 库 以 及 各 种 数据 检索 活动 。 对 于 检索 应 用 大 于 维护 应 用 的 数据 库 ， 为 查询 性 能 优化 数据 
库 (为 用 户 产 生 联 机 或 脱 机 的 预期 和 临时 的 屏幕 与 报告 ) 是 其 主要 目的 。 本 章 已 经 涵盖 了 很 
多 用 户 能 够 用 于 调试 数据 设计 以 适应 数据 库 查 询 需 求 的 决策 (索引 和 文件 组 织 等 )。 

数据 库 设 计 者 需要 投入 优化 查询 性 能 的 工作 量 很 大 程度 上 依赖 于 DBMS。 由 于 专业 数据 
库 开发 人 员 的 成 本 很 高 ， 因 此 开发 者 必须 完成 的 数据 库 和 查询 设计 工作 越 少 ， 那 么 数据 库 使 
用 和 开发 成 本 就 越 少 。 某 些 DBMS 对 于 数据 库 设 计 者 或 查询 编写 者 在 查询 如 何 被 处 理 或 为 
优化 数据 读 写 的 数据 的 物理 分 配 上 提供 很 少 的 控制 。 还 有 一 些 系 统 给 了 应 用 开发 人 员 很 大 的 
控制 ， 而 且 常 常 需要 做 相当 多 的 工作 去 调试 数据 库 设计 和 查询 结构 以 获取 可 观 的 性 能 。 当 工 
作 负 载 非常 聚集 一 一 有 和 较 少 的 批 更 新 和 非常 复杂 需要 大 段 数据 库 的 查询 ， 如 数据 仓库 一 一 性 
能 可 以 很 好 地 通过 DBMS 中 智能 查询 优化 器 调试 ， 或 者 通过 智能 数据 库 和 查询 设计 (或 二 
者 结合 ) 完成 。 例 如 ，Teradata DBMS 对 于 数据 仓库 环境 中 并 行 处 理 具 有 很 高 的 调试 能 力 。 
在 这 种 情形 ， 数 据 库 设计 者 和 查询 编写 者 很 少 能 够 对 DBMS 存储 和 处 理 数 据 的 能 力 做 改进 
工作 。 可 是 ， 这 种 情况 是 很 少 的 ， 因 此 对 于 数据 库 设计 者 考虑 改进 数据 库 处 理性 能 非常 重 
要 ,第 7 章 将 为 编写 有 效 查询 提供 更 多 的 指导 。 


总 结 
在 物理 数据 库 设计 期 间 ， 设 计 者 将 数据 的 逻辑 描述 转换 成 存储 和 检索 数据 的 技术 说 明 。 
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目标 是 创建 一 个 提供 合适 性 能 的 存储 数据 以 及 确保 数据 库 完 整 性 、 安 全 性 和 可 恢复 性 的 设 
计 。 在 物理 数据 库 设计 中 ,设计 者 要 考虑 规范 化 的 关系 和 数据 量 评估 、 数 据 定义 、 数 据 处 理 
需求 和 频率 、 用 户 的 期 待 以 及 数据 库 技术 特征 ， 以 建立 用 于 使 用 数据 库 管理 系统 实现 数据 库 
的 说 明 。 

字段 是 应 用 数据 的 最 小 单位 ， 对 应 于 逻辑 数据 模型 中 的 属性 。 设 计 者 要 确定 数据 类 型 、 
完整 性 控制 ， 如 何 处 理 每 个 字段 的 缺失 的 数值 以 及 其 他 一 些 因素 。 数 据 类 型 是 表示 组 织 数据 
的 详细 编码 模式 。 数 据 可 以 编码 以 减少 存储 空间 。 字 段 完整 性 控制 包括 声明 默认 值 、 可 人 允许 
的 值 范围 、 是 否 人 允许 空 值 以 及 参照 完整 性 。 

去 规范 化 处 理 是 转换 规范 化 的 关系 到 非 规范 化 实现 的 说 明 。 去 规范 化 是 为 了 增进 输入 / 
出 操作 效率 ， 通 过 声明 数据 库 的 实现 结构 ， 使 得 那些 需要 在 一 起 的 数据 元 素 在 物理 介质 上 也 
一 起 被 访问 。 

物理 文件 是 为 了 存储 物理 记录 的 目的 在 二 级 存储 器 上 分 配 的 一 个 命名 部 分 。 物 理 文件 中 
的 数据 通过 组 合 顺序 存储 和 指针 进行 组 织 。 指 针 是 能 够 用 于 定位 相关 字段 或 数据 记录 的 数据 
字 想 。 

文件 组 织 安排 在 二 级 存储 设备 上 的 文件 记录 。 主 要 有 三 种 文件 组 织 分 类 : (1 ) 顺序 文 
件 ， 它 是 按照 主键 值 顺序 地 存储 记录 ; (2 ) 索引 文件 ， 这 里 存储 的 记录 可 以 是 顺序 的 或 者 是 
非 顺 序 的 ， 索 引 被 用 来 跟踪 数据 记录 在 哪里 存储 ; ( 3 ) 哈 希 文件 ， 这 里 每 个 记录 地 址 都 是 通 
过 将 主键 值 变换 为 记录 地 址 的 算法 来 确定 。 

索引 文件 组 织 是 当今 应 用 最 广泛 的 一 种 文件 组 织 。 索 引 可 以 基于 唯一 键 或 二 级 ( 非 唯 一 ) 
键 ， 它 允许 同一 个 键 值 与 多 个 记录 相关 。 连 接 索 引 指明 来 自 两 个 或 多 个 表 中 的 行 ， 它 们 有 共 
同 的 相关 字段 值 。 哈 希 索引 表 使 数据 的 置换 独立 于 哈 希 算法 ,并且 人 允许 同一 数据 可 以 由 在 不 
同 字段 上 的 数 个 哈 希 函数 访问 。 索 引 在 加 速 数 据 检 索 方面 非常 重要 ， 特 别 是 当 在 选择 、 排 序 
或 相关 数据 操作 中 有 多 个 条 件 时 ， 更 是 如 此 。 索 引 在 很 多 不 同 领域 有 用 ， 包 括 大 表 、 检 索 数 
据 中 频繁 使 用 的 列 、 字 段 有 大 量 不 同 值 以 及 且 当 数据 处 理 主要 是 检索 而 不 是 维护 时 等 。 

本 章 包含 了 本 书 数据 库 设 计 的 部 分 内 容 。 当 给 出 了 完整 的 物理 数据 说 明 后 ,设计 者 可 以 
准备 开始 用 数据 库 技 术 实现 数据 库 。 实 现 数据 库 意味 着 定义 数据 库 ， 编 写 客户 端 和 服务 器 程 
序 以 处 理 数据 库 查 询 、 报 告 和 事务 。 这 些 是 后 面 5 章 将 要 叙述 的 主题 ， 涵 盖 了 客户 端 平台 、 
服务 器 平台 、 客 户 端 / 服务 器 环境 和 数据 仓库 技术 上 的 关系 数据 库 实 现 。 


关键 术语 

Data type (数据 类 型 ) Index (索引 ) 

Denormalization (去 规范 化 ) Indexed file organization (索引 文件 组 织 ) 
Extent ( 块 ) Join index (连接 索引 ) 

Field (字段 ) Physical file (物理 文件 ) 

File organization (文件 组 织 ) Pointer (指针 ) 

Hash index table ( 哈 希 索引 表 ) Secondary key (二 级 键 ) 

Hashed file organization (了 哈 希 文件 组 织 ) Sequential file organization( 顺 序 文件 组 织 ) 


Hashing algorithm( 哈 希 算法 ) Tablespace ( 表 空 间 ) 
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复 习题 
1. 定义 下 列 术 语 
a. 文件 组 织 b. 顺序 文件 组 织 c. 索引 文件 组 织 d. 哈 希 文件 组 织 
e. 去 规范 化 f. 组 合 键 g. 二 级 键 h. 数据 类 型 
i. 连接 索引 
2. 将 下 列 术语 与 合适 的 定义 匹配 : 
块 a. 表示 组 织 数据 的 详细 编码 模式 
哈 希 算法 b. 用 于 在 文件 中 定位 一 个 记录 / 多 个 记录 的 数据 结构 
索引 c. 二 级 存储 上 的 命名 区 域 
物理 记录 d. 磁盘 存储 空间 上 一 个 连续 部 分 
指针 e. 不 含有 业务 数据 的 字段 
数据 类 型 f. 变换 一 个 键 值 到 一 个 地 址 
物理 文件 g. 相 邻 的 字段 
3. 比较 如 下 术语 : 


a. 物理 文件 ; 表 空间 
c. 范围 控制 ; 空 值 控制 
4. 物理 数据 库 设 计 的 主要 输入 是 什么 ? 
5. 物理 数据 库 设计 的 关键 决策 是 什么 ? 
6. 开发 字段 声明 中 必须 要 做 的 决定 是 什么 ? 
7 
8 
9 


ST 


. 规范 化 ; 去 规范 化 
.二 级 键 ; 主键 


[= 本 


， 解释 物理 数据 库 设 计 如 何在 遵从 法 规 管理 中 担任 重要 角色 。 

， 为 字段 选择 数据 类 型 的 目的 是 什么 ? 

. 解释 为 什么 有 时 必须 为 数值 字段 保留 比 初始 存储 值 需要 的 更 多 空间 。 

10. 为 什么 有 时 要 对 字段 值 编码 ? 

11. 在 字段 层级 控制 数据 完整 性 可 用 的 选项 是 什么 ? 

12. 描述 三 种 处 理 缺 失 字段 值 的 方法 。 

13. 解释 为 什么 规范 化 的 关系 可 能 并 不 包括 有 效 的 物理 实现 结构 。 

14. 列举 三 个 一 般 情况 ,该 情况 建议 在 数据 库 实施 前 将 关系 去 规范 化 。 

15. 解释 为 什么 某 些 人 反对 实践 去 规范 化 。 

16. 列举 7 个 重要 的 选择 最 好 文件 组 织 的 标准 。 

17. 哈 希 索引 表 的 益处 是 什么 ? 

18. 陈述 选择 索引 的 9 个 规则 。 

19. 有 关 索 引 的 推荐 之 一 是 为 每 个 主键 声明 一 个 唯一 性 索引 。 解 释 该 推荐 的 理由 。 
20. 解释 为 什么 只 有 当 一 个 属性 有 是 够 多 的 不 同 值 时 索引 才 有 用 。 

21. 索引 显然 是 非常 有 益 的 ， 但 为 什么 设计 者 不 为 数据 库 的 每 个 表 的 每 一 列 都 创建 一 个 索引 ? 


问题 与 练习 


1. 为 Millennium 学 院 考虑 如 下 两 个 关系 : 
STUDENT(StudentiD, StudentName, CampusAddress, GPA) 
REGISTRATION(StudentID, CourselD, Grade) 


在 这 些 关 系 上 有 如 下 典型 查询 : 
SELECT Student_T.StudentiD, StudentName, CourselD, Grade 
FROM Student_T, Registration T 
WHERE Student TSstudentlID = Registration_T.StudentID 
AND GPA > 3.0 











hn 全 hi5 


第 5 荚 笔 理 烙 据 翌 座 计 和 性 能 179 


ORDER BY StudentName:; 


a. 应 该 在 哪个 属性 上 创建 索引 才能 加 速 该 查询 ?” 对 于 选 定 的 属性 给 出 其 理由 。 
b. 对 于 a 中 选 定 的 索引 属性 ， 写 出 相应 的 创建 索引 的 SQL 命令 。 

问题 与 练习 2 一 5 是 假设 使 用 Oracle 的 数据 库 管 理 系统 。 如 果 不 是 这 样 ， 请 根据 你 所 熟悉 的 
DBMS 环境 修改 这 些 问 题 。 你 也 可 以 对 不 同 的 DBMS 比较 答案 。 


. 对 图 5-3 中 的 规范 化 关系 中 的 属性 选择 Oracle 的 数据 类 型 。 


对 第 4 章 的 问题 与 练习 19 中 创建 的 规范 化 关系 中 的 属性 选择 Oracle 的 数据 类 型 。 

用 你 自己 的 语言 解释 Oracle 数据 类 型 NUMBER 的 精度 (p) 和 大 小 (s) 参数 的 含义 。 
假设 你 要 存储 数值 3 456 349.233 4。 下 面 几 种 Oracle 数据 类 型 哪 一 种 适 于 存储 该 数值 ? 
a. NUMBER (11) b. NUMBER (11, 1) c. NUMBER (11, —2) 
d. NUMBER (6) e. NUMBER 


.假定 你 为 你 所 在 大 学 的 学 生 记 录 中 的 年 龄 字段 设计 默认 值 。 你 将 考虑 使 用 哪个 值 ， 为 什么 ? 这 个 默 


认 值 如 何 适 应 学 生 中 其 他 特征 的 变化 ， 比 如 大 学 中 的 学 院 或 学 位 等 ? 


.， 当 学 生 在 大 学 中 没有 选择 专业 ， 大 学 通常 对 此 输入 一 个 值 “ Undecided”， 该 值 是 否 是 表示 空 值 的 


一 种 方式 ? 它 可 以 被 用 作 默 认 值 吗 ? 仔细 验证 你 的 答案 。 


. 考虑 如 下 在 大 型 零售 商业 链 数据 库 中 的 规范 化 关系 : 


STORE (StorelD, Region, ManagerlD, SquareFeet) 

EMPLOYEE (EmployeelD, WhereWork, EmployeeName, EmployeeAddress) 
DEPARTMENT (DepartmentID, ManagerID, SalesGoal) 

SCHEDULE (DepartmentID, EmployeelD, Date) 


为 这 个 数据 库 定义 物理 记录 时 ， 去 规范 化 这 些 关系 的 机 会 是 什么 ? 在 什么 环境 下 你 将 考虑 创 
建 这 样 的 去 规范 化 记录 ? 


. 考虑 如 下 运动 俱乐部 的 规范 化 关系 : 


TEAM(TeamlD, TeamName, TeamLocation) 

PLAYER(PlayerlD, PlayerFirstName, PlayerLastName, PlayerDateOfBirth, PlayerSpecialtyCode) 
SPECIALTY (SpecialtyCode, SpecialtyDescription) 

CONTRACT(TeamID, PlayerlD, StartTime, EndTime, Salary) 

LOCATION(LocationID, CityName, CityState, CityCountry, CityPopulation) 
MANAGER(ManagerlD, ManagerName, ManagerTeam) 


对 于 去 规范 化 的 机 会 有 什么 建议 ”你 需要 充分 了 解 哪 些 附 加 的 信息 可 以 制定 去 规范 化 决策 ? 


.在 顺序 文件 组 织 中 ， 是 否 有 可 能 允许 根据 几 个 排序 的 记录 来 顺序 扫描 数据 ? 如 果 不 允 许 ， 为 什么 ， 


如 果 人 允许 ， 如 何 做 ? 


. 假定 文件 中 的 每 个 记录 都 是 使 用 指针 按照 键 的 顺序 前 后 连接 ， 这样， 每 个 记录 可 以 有 如 下 格式 : 


主键 ， 其 他 属性 ， 指 向 前 一 个 记录 指针 ， 指 癌 下 一 个 记录 的 指针 。 
a. 与 顺序 文件 组 织 相 比较 ， 这 样 的 文件 组 织 的 优点 是 什么 ? 
b. 对 照 顺序 文件 组 织 ， 它 能 够 在 多 个 序列 中 保持 记录 吗 ? 为 什么 可 以 或 不 可 以 ? 


. 假定 一 个 大 学 数据 库 中 的 学 生 表 有 在 StudentID (主键 ) 上 的 索引 和 在 Major、Age、MaritalStatus 


及 HomeZipCode (所 有 二 级 键 ) 上 的 索引 。 进 一 步 ， 假 定 学 校 需要 满足 如 下 条 件 的 学 生 列 表 : 专 
业 是 MIS 或 计算 机 科学 ， 年龄 大 于 25 岁 , 已 婚 , 或 者 学 生 的 专业 是 计算 机 工程 ,单身 ,来自 
45462 邮编 地 区 。 如 何 使 用 索引 使 得 仅仅 满足 条 件 的 学 生 可 以 被 访问 ? 


.考虑 问题 与 练习 9 中 的 关系 。 假 定 该 数据 库 不 是 按 去 规范 化 实现 ， 并且 该 数据 库 中 有 数 千 个 联盟 、 


数 万 个 运动 队 和 数 百 万 个 运动 员 。 为 了 适应 这 种 情况 ， 数 据 库 中 添加 一 个 如 下 新 关系 : 
LEAGUE(LeaguelD, LeagueName, LeagueLocation) 

另外 ，TEAM 表 中 添加 一 个 新 属性 TeamLeague。 以 下 是 典型 的 数据 库 操作 : 

e 添加 新 运动 员 

e 添加 新 的 运动 员 合同 
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e 更 新 运动 员 专 项 编码 

e 更 新 城市 人 口 

e 按 运 动 队 报告 运动 员 

e 按 运动 队 和 专项 报告 运动 员 

e 按 薪酬 顺序 报告 运动 员 

e 按 城市 报告 运动 队 和 它们 的 队员 。 

a. 指定 外 键 。 

b. 声明 对 该 情形 推荐 的 索引 类 型 。 解 释 如 何 使 用 上 面 列 出 的 操作 达到 你 给 出 的 推荐 。 


.考虑 图 $-6b。 假 定 这 个 索引 的 叶子 中 的 空 行 展示 了 可 以 存储 新 记录 的 空间 ， 解 释 Sooners 记录 将 


被 存储 在 哪里 。Flashes 记录 将 被 存储 在 哪里 ? 当 某 个 叶子 已 填 满 且 新 记录 需要 添加 到 叶子 上 时 会 
发 生 什么 事情 ? 


.考虑 图 4-35 和 第 4 章 问 题 与 练习 19 的 答案 。 假 定 组 织 需 要 的 最 重要 的 报告 如 下 : 


当前 开发 者 的 项 目 分 配 列表 。 

所 有 项 目 总 代价 的 列表 。 

对 于 每 个 团队 ， 它 的 成 员 历 史 列 表 。 

对 于 每 个 国家 ， 涉 及 该 国家 的 开发 者 的 所 有 项 目的 列表 ， 包 括 项 目的 结束 日 期 。 

分 别 对 每 一 年 列表 所 有 开发 者 ， 并 且 按 照 他 们 在 哪 一 年 完成 的 所 有 赋值 的 平均 赋值 分 数 排序 。 
基于 这 个 信息 ， 给 出 你 为 该 数据 库 推 荐 要 创建 的 索引 。 选 择 两 个 索引 ， 写 出 创建 该 索引 的 

SQL 命令 。 

问题 与 练习 16 与 17 参考 本 书 提供 的 Pine Valley 家 具 公 司 数据 集 。 


.为 图 4-4 中 的 Customer_T 和 Order T 表 上 的 CustomerID 字段 创建 连接 索引 。 
.参考 图 4-4， 为 如 下 每 一 个 报告 (有 样本 数据 ) 指明 任何 你 认为 有 助 于 较 快 生成 该 报告 的 索引 以 及 


它 的 类 型 。 
a. 不 同 洲 ， 按 产品 (用 户 指 定时 间 区 间 ) 
2010 年 元 旦 到 3 月 底 ， 不 同 洲 产品 的 报表 


State Total Quantity Ordered 


b. 用 户 指定 的 月 份 中 最 频繁 售 出 的 产品 材料 
2010 年 3 月 1 日 到 3 月 3 日 最 频繁 销 出 的 产品 材料 
Product Finish Units Sold 
Cherry 13 
c. 上 个 月 订 出 的 所 有 订单 
2010 年 3 月 1 日 到 3 月 31 日 月 订单 报表 


Order ID Order Date Customer ID Customer Name 
19 3/5/10 | 台 | Eastern Furniture 
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相关 订单 详情 
Product Description | QuantityOrdered | Prce | Extended Price 
Cherry End Table 110 | si $750.00 
High Back Leather- Chair $362.00 $1 810.00 








Order_1D 







Order Date 






Customer IDs 





Customer Name 





Contemporary Casuals 


相关 订单 详情 





Product Description 








Bookcase 


d. 按照 产品 线 销售 的 全 部 产品 (用 户 指 定时 期 ) 









Extended Price 
$276.00 





$69.00 


2010 年 3 月 1 日 到 3 月 31 日 按 产 品 线 销售 的 全 部 产品 


Product Line 
Basic 200 
Antique 
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第 四 部 分 包括 第 6 章 到 第 9 章 。 

这 一 部 分 讨论 了 与 关系 系统 实现 有 关 的 内 容 ， 包 括 基 于 Web 的 互联 网 应 用 以 及 
数据 仓库 。 如 在 第 1 章 讲述 的 ， 数 据 库 实现 主要 包括 数据 库 处 理 程序 的 编码 和 测试 、 
数据 库 文档 和 培训 材料 的 完成 、 安 装 数 据 库 及 需要 时 从 之 前 系统 的 数据 转换 。 这 里 要 
论述 的 是 系统 开发 生命 周期 的 最 后 一 个 问题 。 前 面 的 行为 一 一 企业 建 模 、 概 念 数据 建 
模 、 逻 辑 及 物理 数据 库 设计 都 是 之 前 必需 的 阶段 。 最 后 ,希望 能 实现 一 个 可 以 满足 用 
户 需求 的 可 运作 的 系统 。 之 后 ， 系 统 将 会 投入 生产 使 用 ， 在 这 个 系统 的 生命 周期 中 ， 
要 对 数据 库 进行 必要 的 维护 。 第 四 部 分 有 助 于 你 对 数据 库 系 统 实 现 的 复杂 性 及 挑战 有 
一 个 初步 的 了 解 。 

第 6 章 讲 述 结 构 化 查询 语言 ( SQL)， 它 在 关系 数据 库 的 创建 和 处 理 中 已 经 成 为 
一 种 标准 语言 (尤其 在 数据 库 服务 器 上 )。 对 SQL 历史 的 简要 介绍 包括 目前 被 大 多 数 
DBMS 使 用 的 SQL:1999 及 被 许多 关系 系统 应 用 的 SQL:2008 标准 ， 另 外 还 对 SQL 语 
法 做 了 阐述 。 数 据 定 义 语 言 ( DDL) 用 于 数据 库 创 建 ， 数 据 操作 语言 (DML) 用 于 数 
据 库 查询 。 动 态 视图 约束 用 户 的 环境 到 相关 必要 的 表 ， 以 完成 用 户 的 工作 ， 对 此 也 给 
出 了 说 明 。 

第 7 章 继 续 介绍 高 级 SQL 的 语法 和 结构 ， 展 示 了 多 表 查 询 、 子 查询 和 相关 子 查 
询 。 这 些 功 能 为 SQL 提供 了 更 强 的 能 力 。 事 务 完整 性 问题 和 数据 字典 结构 的 解释 将 
SQL 置 于 更 广阔 的 背景 。 其 他 编程 能 力 包括 触发 器 和 存储 过 程 以 及 将 SQL 谈 入 其 他 
编程 语言 程序 (比如 Oracle 的 PL/SQL)。 本 章 将 SQL:1999 和 SQL:2008 的 联机 事务 
处 理 ( OLTP) 和 联机 分 析 处 理 (OLAP) 特点 做 了 对 比 ， 介 绍 了 访问 数据 仓库 所 必需 
的 OLAP 查询 ， 提 供 了 编写 和 测试 从 简单 到 复杂 的 查询 的 策略 。 
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第 8 章 讨论 了 客户 端 /服务 器 体系 结构 的 概念 、 应 用 、 中 间 件 及 在 现代 数据 库 环 
境 下 的 数据 库 访 问 ， 介 绍 了 常用 的 创建 二 层 及 三 层 应 用 的 技术 ， 用 简单 的 应 用 程序 示 
例 演 示 了 怎样 用 流行 的 程序 设计 语言 (比如 Java、VB.NET、ASPNET、JSP) 来 访问 
数据 库 。 对 云 计 算 对 数据 库 应 用 的 影响 也 做 了 介绍 。 本 章 还 扩展 介绍 了 在 数据 存储 
和 检索 领域 新 兴 的 可 扩展 标记 语言 (eXtensible Markup Language，XML) 及 相关 技 
术 ， 涵 盖 的 主题 包括 XML 模式 、XQuery、XSLT、Web 服务 和 面向 服务 的 体系 结构 
(Service-Oriented Architecture，SOA ) 的 基础 知识 。 

第 9 章 讲述 了 数据 仓库 的 基本 概念 ， 解 释 了 数据 仓库 被 视 为 许多 组 织 获 得 竞争 优 
势 的 关键 的 原因 ， 以 及 数据 仓库 独特 的 数据 库 设 计 和 结构 。 主 题 包 括 可 选择 的 数据 仓 
库 体系 结构 、 数 据 仓 库 的 数据 类 型 以 及 数据 集 市 的 多 维 数 据 模 型 ( 星 型 模式 )。 此 外 还 
解释 和 举例 说 明了 数据 集 市 的 数据 库 设计 ， 和 包括 代理 键 、 事 实 表 粒度 、 日 期 和 时 间 建 
模 、 一 致 性 维度 和 辅助 / 层次 / 引用 表 等 。 这 一 章 还 介绍 了 两 种 新 的 数据 仓库 的 方法 : 
列 式 数 据 库 和 NoSQL。 本 部 分 的 最 后 一 章 简要 介绍 了 数据 管理 和 数据 质量 。 

正如 前 面 对 各 章 所 做 的 概要 所 述 ， 第 四 部 分 不 仅 提 供 了 实现 数据 库 应 用 所 涉及 问 
题 的 概念 理解 ， 还 提供 了 对 建立 一 个 数据 库 原型 所 必需 的 过 程 的 初步 认识 。 常 用 策略 
的 介绍 (比如 客户 端 / 服 务 器 、Web 支持 、Web 服务 和 数据 仓库 等 ) 可 以 使 你 了 解 未 
来 数据 库 的 发 展 方向 。 
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学 习 目 标 

学 完 本 章 后 ， 读 者 应 该 能 够 : 

e 准确 地 定义 以 下 关键 术语 : 关系 数据 库 管 理 系 统 (RDBMS )， 目 录 ， 模 式 ， 数 据 定 义 
语言 (DDL)， 数 据 操作 语言 4(DML )， 数 据 控制 语言 (DCL)， 标 量 聚 集 ， 矢 量 聚 集 ， 
基本 表 ， 虚 表 ， 动态 视图 。 

。 解释 SQL 在 数据 库 开 发 中 的 历史 及 其 作用 。 

e 使 用 SQL 数据 定义 语言 定义 一 个 数据 库 。 

e 使 用 SQL 命令 进行 单 表 查询 。 

e 使 用 SQL 建立 参照 完整 性 。 

e 讨论 SQL:1999 和 SQL:2008 标准 。 

引言 

有 人 将 SQL 读 作 “S-Q-L”"， 有 人 读 作 “ sequel”，SQL 已 经 成 为 创建 和 查询 关系 数 
据 库 真正 的 标准 语言 (下 一 个 标准 会 是 SQL 的 延续 吗 ? )。 本 章 的 主要 目的 是 介绍 在 关系 
数据 库 中 最 常用 的 语言 SQL， 它 已 经 被 美国 国家 标准 协会 (American National Standards 
Institute ，ANSI) 接受 为 U.S. 标 准 ， 同 时 也 是 联邦 信息 处 理 标 准 (Federal Information 
Process Standard，FIPS)。 男 外 ， 它 也 被 国际 标准 化 组 织 (International Organization for 
Standardization，ISO) 认定 为 国际 标准 。ANSI 被 信息 技术 标准 国际 委员 会 ( International 
Committee for Information Technology Standards，INCITS) 所 认可 作为 一 个 标准 发 展 组 织 ; 
INCITS 正在 致力 于 SQL 标准 下 一 个 版 本 的 推出 。 

SQL 标准 就 像 是 佛罗里达 下 午 的 天 气 (也 可 能 像 你 所 在 地 区 的 天 气 ) 一 一 一 会 儿 一 变 。 
ANSI SQL 标准 最 先 在 1986 年 颁布 并 且 在 1989、1992 (SQL-92)、1999 ( SQL:1999 )、 
2003 (SQL:2003 )、2006 (SQL:2006 ) 和 2008 (SQL:2008 ) 年 进行 了 更 新 。( 可 以 参见 网 址 : 
http://en.wikipedia.org/wiki/SQL 查看 SQL 历史 )。SQL 标准 现在 一 般 简 称 为 SQL:2008 (也 
许 过 几 天 就 是 SQL:201n 了 )。 

本 书 编写 时 ， 大 部 分 数据 库 管 理 系 统 遵从 SQL:1992 标准 ， 部 分 体 从 SQL:1999 和 
SQL:2008 。 

除非 注 明 为 特定 厂商 的 语法 ， 本 章 中 的 例子 都 遵从 SQL 标准 ,。 人 们 很 关注 SQL:1999 
和 SQL:2003/SQL:2008 是 否 是 真正 的 标准 ， 因 为 美国 贸易 部 的 NIST 对 标准 的 符合 性 已 经 
不 再 给 予 认 定 ( Gorman，2001 )。" SQL 标准 ”也 许可 以 认为 是 个 矛盾 ( 像 安全 投资 或 者 
简易 付款 ) ! 厂商 之 间 对 于 SQL 标准 的 解释 各 不 相同 ,而且 厂 商 对 于 他 们 的 产品 进行 了 扩 
展 ， 加 入 了 一 些 现 有 标准 之 外 的 专 有 特性 ， 这 使 得 一 个 厂商 产品 中 的 SQL 很 难 运行 于 其 他 
厂商 的 产品 中 。 要 求人 们 必须 对 所 使 用 的 SQL 的 特别 版 本 非常 熟悉 ， 并 且 不 能 指望 SQL 代 
码 能 非常 精确 地 移植 到 男 一 个 厂商 的 SQL 版 本 中 。 表 6-1 列 出 了 在 处 理 日 期 和 时 间 值 上 的 
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不 同 ， 以 此 说 明 各 个 SQL 厂商 (IBM DB2、Microsoft SQL Server、MySQL (开源 DBMS )、 
Oracle) 之 间 的 差异 。 
表 6-1 处 理 日 期 和 时 间 值 (Arvin，2005， 基 于 http://troelsarvin.blogspot.com/ 上 的 内 容 ) 


TIMESTAMP 数据 类 型 : 核心 特性 ， 该 数据 类 型 存储 年 、 月 、 日 、 时 、 分 及 秒 ( 秒 的 小 数 部 分 ， 默 认 是 6 个 小 数位 ) 
TIMESTAMP WITH TIME ZONE 数据 类 型 : 可 以 存储 时 区 的 扩展 TIMESTAMP 


实现 : 
产品 遵循 标准 ? 注解 
DB2 只 有 TIMESTAMP 包括 有 效 性 检查 ， 不 接受 如 2010-02-29 00:50:00 这 样 的 实体 
MS-SQL | 无 DATETIME 存储 日 期 和 时 间 ， 秒 的 小 数位 只 有 3 位 ; DATETIME2 有 


着 更 大 的 日 期 范围 和 更 多 的 小 数位 。 有 效 性 检查 类 似 于 DB2 的 功能 

当 行 里 的 其 他 数据 更 新 时 , TIMESTAMP 也 会 更 新 到 当前 日 期 和 时 间 ， 
MySQL | 无 并 且 为 用 户 展示 时 区 的 值 。DATETIME 类 似 于 MS-SQL， 但 是 有 效 性 检 
查 的 准确 性 较 差 ， 并 且 可 能 导致 0 值 

TIMESTAMP 和 TIMESTAMP | TIMESTAMP WITH TIME ZONE 不 允许 作为 唯一 性 键 值 的 一 部 分 。 
WITHTIME ZONE 它 包 括 对 于 日 期 的 有 效 性 检查 

SQL 已 经 同时 在 大 型 机 和 个 人 电脑 系统 上 实现 ， 所 以 这 一 章 与 上 面 两 个 计算 环境 相关 。 

尽管 许多 PC 数据 库 包 使 用 示例 查询 ( query-by-example，QBE) 接口 ， 但 它们 仍然 包括 了 
SQL 编程 这 一 选项 。QBE 接口 是 以 图 形 进行 演示 的 ， 它 们 在 查询 执行 之 前 将 QBE 动作 解释 
成 SQL 语言 代码 。 例 如 在 微软 Access 中 ， 可 以 在 两 个 接口 间 来 回 切 换 ; 使 用 QBE 接口 构 
建 的 一 个 查询 可 以 通过 点 击 按钮 查看 ， 这 一 特性 会 有 助 于 你 更 好 地 学 习 SQL 语法 。 在 客户 
端 / 服务 器 体系 结构 中 ，SQL 命令 在 服务 器 端 执 行 ， 结 果 将 返回 到 客户 端 工 作 站 。 


6.1 SQL 标准 的 起 源 


关系 数据 库 技 术 的 概念 在 1970 年 E. FE Codd 的 经 典 论文 “A Relational Model of Data 
for Large Shared Data Banks” 中 被 首次 提出 。 位 于 加 利 福 尼 亚 圣 何 塞 的 IBM 研究 院 的 工作 
人 员 承 担 了 系统 R 的 开发 项 目 ， 想 要 证 明 在 数据 库 管 理 系统 中 实现 关系 模型 的 可 行 性 ， 他 
们 使 用 了 一 种 本 研究 院 开发 的 被 称 为 “Sequel” 的 语言 。 在 1974 年 至 1979 年 的 项 目 过 程 
中 ,“ Sequel” 又 被 重 命 名 为 “SQL”。 该 项 目 成 果 被 应 用 在 第 一 个 商业 化 的 关系 数据 库 管 
理 系统 SQL/DS (来 自 IBM) 的 开发 中 。 SQL/DS 在 1981 年 被 首次 推出 ， 运 行 在 DOS/VSE 
操作 系统 上 。1982 年 ， 推 出 了 VM 版 本 ; 1983 年 ， 推 出 了 MVS 版 本 ， 也 就 是 DB2。 

当 系 统 R 在 安装 用 户 中 深 受 好 评 时 ， 其 他 厂商 开始 开发 使 用 SQL 语言 的 关系 型 产品 。 
其 中 一 项 来 自 于 Relational Software 的 产品 Oracle， 其 实在 SQL/DS ( 1979 ) 之 前 就 已 经 进 
入 市 场 。 其 他 一 些 产 品 包括 Relational technology ( 1981 ) 的 INGRES、Britton-Lee ( 1982 ) 
的 IDM、Data General Corporation ( 1984 ) 的 DG/SQL 以 及 Sybase (1986) 的 Sybase 等 。 
为 了 给 关系 DBMS 的 开发 提供 方向 ，ANSI 和 ISO 认可 了 由 X3H2 数据 库 科 技 委员 会 最 初 提 
出 的 SQL 关系 查询 语言 (功能 和 语法 ) 标准 (Technical Committee X3H2 一 Database，1986 ; 
ISO, 1987 )， 这 就 是 后 来 的 SQL/86 标准 。 关 于 SQL 标准 的 更 详细 的 发 展 历史 ， 请 参见 
www.wiscorp.com 的 文档 。 

以 下 是 SQL 标准 的 最 初 目标 : 

1 ) 详细 说 明 SQL 数据 定义 语言 和 数据 操作 语言 的 语法 和 语义 。 
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2 ) 为 SQL 数据 库 的 设计 、 访 问 、 维 护 、 控 制 和 保护 定义 数据 结构 和 基本 操作 。 
3 ) 为 相似 的 DBMS 之 间 的 数据 库 定 义 和 应 用 模块 的 移植 提供 一 种 手段 。 
4 ) 同时 指定 最 小 (1 级 ) 和 完整 (2 级 ) 标准 ， 人 允许 产品 有 不 同 程度 的 采用 。 
5 ) 提供 一 个 初始 标准 ， 尽 管 不 完整 ， 但 是 以 后 会 被 改进 以 包含 处 理 以 下 问题 的 规范 : 
例如 参照 完整 性 、 事 务 管 理 、 用 户 自 定义 函数 、 等 值 连接 以 外 的 连接 运算 符 和 国际 字符 
关于 SQL， 什 么 时 候 是 标准 ?就 如 前 面 解释 的 ， 多 数 厂商 为 他 们 的 SQL 数据 库 管理 系 
统 加 入 了 一 些 特 有 的 特性 和 命令 。 那 么 ， 在 厂商 之 间 如 此 不 同 的 情况 下 ， 提 出 SQL 标准 有 
哪些 优点 和 缺点 呢 ? 这 样 一 个 标准 化 的 关系 语言 的 好 处 包括 以 下 几 点 〈 尽 管 由 于 厂商 差异 没 
有 绝对 的 好 处 ，): 
e 减少 培训 成 本 一 个 组 织 内 可 以 仅 针 对 一 种 语言 进行 培训 。 大 量 信 息 系统 (IS) 专业 
人 员 接 受过 通用 语言 的 培训 ,这样 可 以 减少 对 新 员工 的 再 培训 。 
e 生产 率 ”IS 专业 人 员 可 以 深入 学 习 SQL， 并 且 可 以 通过 以 后 的 使 用 变 得 更 加 精通 。 
组 织 可 以 提供 工具 ， 帮 助 专业 人 士 提 高 他 们 的 工作 效率 。 男 外 ， 由 于 他 们 熟悉 编程 所 
用 的 语言 ， 程 序 员 能 够 更 快 地 维护 已 有 的 程序 。 
应 用 的 可 移植 性 ”如 果 每 台 机 器 都 使 用 SQL， 应 用 便 可 以 在 不 同 机 器 间 移 植 。 此 外 ， 
对 于 计算 机 软件 行业 来 说 ， 当 有 一 个 标准 语言 的 时 候 ， 开 发 通用 应 用 软件 会 非常 经 济 。 
e 应 用 寿命 一 种 标准 化 的 语言 会 持续 很 长 的 时 间 ， 因 此 不 用 担心 重 写 旧 程序 的 问题 。 
另外 ， 由 于 标准 语言 的 改进 及 新 版 本 DBMS 的 引入 ， 应 用 更 新 会 变 得 很 容易 。 
e 降低 对 单一 厂商 的 依赖 性 当 使 用 非 专 用 语言 时 ， 用 户 更 容易 选用 不 同 厂 商 的 
DBMS、 培 训 和 教育 设施 、 应 用 软件 以 及 咨询 帮助 ， 更 进一步 地 ， 这 些 厂商 在 市 场 上 
的 彼此 竞争 可 能 会 在 降低 价格 的 同时 改进 服务 。 
e 跨 系 统 通信 不 同 的 DBMS 和 应 用 程序 能 够 在 数据 管理 和 用 户 程 序 处 理 上 更 加 容易 
地 进行 通信 。 
但 是 男 一 方面 ， 标 准 会 抑制 创造 力 和 创新 性 。 一 个 标准 永远 不 可 能 满足 所 有 的 需求 ， 并 
且 一 项 行业 标准 也 会 与 理想 情况 相距 其 远 ， 因 为 它 可 能 是 各 部 门 分 析 中 的 结果 。 一 项 标准 很 
难 被 更 改 (因为 关乎 许多 厂商 的 既得 利益 )， 所 以 修复 缺陷 必然 会 需要 相当 大 的 努力 。 通 过 
专 有 特性 扩展 标准 的 另 一 个 缺点 是 ， 使 用 由 特定 厂商 添加 到 SQL 的 特有 特性 可 能 会 导致 本 
身 一 些 优 势 的 丢失 ， 比 如 应 用 的 可 移植 性 。 
许多 产品 都 支持 SQL， 并 且 可 以 运行 在 从 个 人 计算 机 到 大 型 机 的 各 种 型 号 的 机 需 上 。 
数据 库 市 场 正在 逐步 成 熟 ,， 产品 显著 变化 的 频率 会 降低 ， 但 是 它们 仍然 会 基于 SQL。 占 有 
巨大 市 场 份额 的 关系 数据 库 厂商 的 数量 还 是 在 持续 增加 。 根 据 iStockAnalyst.com， 高 德 的 
咨询 公司 报告 显示 ,在 2010 年 ， 甲骨文 公司 ( Oracle) 控制 了 数据 库 整 体 市 场 的 48%，IBM 
位 于 第 二 ， 微 软 接近 第 三 。Sybase 和 Teradata 所 占 份额 虽然 小 得 多 ,但 是 也 很 显著 。 开 源 
产品 像 MySQL、PostgreSQL 和 Ingres 加 起 来 约 占 10% 的 市 场 份额 。MySQL 作为 SQL 的 
开源 版 本 很 受 欢 迎 ， 它 可 以 运行 在 Linux、UNIX、Windows 及 Mac'OS X 等 操作 系统 ， 广 受 
欢迎 。( 可 以 从 www.mysql.com 免费 下 载 MySQL 软件 。) 随 着 时 间 的 推移 ，MySQL 的 市 场 
地 位 可 能 会 发 生 改 变 ， 它 已 经 作为 Sun 公司 的 一 部 分 被 Oracle 收购 。 一 些小 的 厂商 仍然 有 
机 会 通过 特定 工业 系统 或 利 基 市 场 ( niche) 应 用 来 发 展 壮大 。 在 你 阅读 本 书 时 ， 即 将 到 来 的 
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产品 发 布 可 能 会 改变 数据 库 管 理 系 统 的 相对 优势 ， 但 是 它们 仍然 会 使 用 SQL， 并 且 会 在 一 
定 程度 上 遵循 这 里 列 出 的 标准 。 

由 于 Oracle 占据 了 巨大 的 市 场 份额 ， 本 书 中 我 们 多 使 用 Oracle 11g 语法 来 阐述 SQL。 
我 们 使 用 特定 的 关系 DBMS 来 图 解 例 子 ， 这 并 不 意味 着 是 在 推进 Oracle， 而且 我 们 知道 此 
处 使 用 的 代码 将 在 一 些 DBMS 上 工作 。 事 实 上 ， 这 些 代 码 在 大 多 数 情 况 下 都 可 以 工作 ， 因 
为 很 多 关系 DBMS 都 遵循 ANSI SQL 标准 。 


6.2 SQL 环境 


对 于 如 今 的 关系 DBMS 和 应 用 程序 开发 环境 ， 用 户 一 般 不 会 察觉 到 SQL 在 数据 库 体 系 
结构 中 的 重要 性 ， 许 多 访问 数据 库 应 用 的 用 户 根 本 就 不 具有 SQL 的 知识 。 例 如 ，Web 网 站 
允许 用 户 浏览 他 们 的 目录 ， 单 个 产品 展现 出 的 信息 (比如 大 小 、 颜 色 、 描 述 及 存量 等 ) 存储 
在 数据 库 里 。 这 些 信息 通过 SQL 查询 来 检索 ,但 是 用 户 并 没有 发 出 SQL 命令 ， 而 是 使 用 了 
一 个 预先 写 好 的 带 有 内 骨 SQL 命令 的 数据 处 理 程序 (如 用 Java 编写 的 程序 )。 

一 个 基于 SQL 的 关系 数据 库 应 用 包括 用 户 界 面 、 一 组 数据 库 表 及 带 有 SQL 功能 的 关 
系数 据 库 管理 系统 (RBMS)。 在 RDBMS 中 ， 使 用 SQL 来 创建 表 、 解 释 用 户 请 求 、 维 护 
数据 词典 和 系统 目录 、 更 新 和 维护 表 、 建 立 安全 机 制 以 及 实施 备份 和 人 恢复。 关系 DBMS 
( RDBMS) 是 一 个 实现 了 关系 数据 模型 的 数据 管理 系统 ， 其 中 数据 存储 在 表 集 合 里 ， 通 过 共 
同 值 而 非 链接 来 表现 数据 联系 。 这 种 数据 视图 已 经 在 第 2 章 关 于 Pine Valley 家 具 公 司 数 据 库 
系统 做 过 阐述 ， 并 且 将 会 在 本 章 的 SQL 查询 示例 中 使 用 。 

图 6-1 是 一 个 SQL 环境 的 简要 原理 图 ， 其 遵循 SQL:2008 标准 。 如 图 所 示 ， 一 个 SQL 环 
境 包 括 一 个 数据 库 管理 系统 的 实例 和 可 以 被 DBMS 访问 的 数据 库 及 通过 DBMS 来 访问 数据 库 
的 用 户 和 程序 。 每 一 个 数据 库 都 包含 在 一 个 目录 (catalog) 中 ， 无 论 创 建 者 是 谁 ， 目 录 都 描述 
了 属于 数据 库 的 一 切 对 象 。 图 6-1 展示 了 两 个 目录 : DEV_C 和 PROD_C。 大 多 数 公司 都 至 少 
保留 他 们 所 使 用 的 数据 库 的 两 个 版 本 。 产 品 版 本 ( 即 这 里 的 PROD_C) 这 是 在 线 版 本 ， 捕 获 
了 真实 的 商业 数据 ， 因 而 必须 得 到 高 度 控 制 和 监控 。 开 发 版 本 ( 即 这 里 的 DEV_C) 是 在 创建 
数据 库 时 使 用 ， 并 将 继续 作为 开发 工具 ， 数 据 库 的 增强 和 维护 工作 可 以 先 在 这 里 进行 充分 测 
试 ， 然 后 再 应 用 到 产品 数据 库 。 通 常 这 种 数据 库 是 不 被 严格 控制 和 监控 的 ， 因 为 它 不 包含 实 
时 的 商业 数据 。 每 个 数据 库 都 会 有 一 个 与 目录 相关 联 的 命名 模式 。 模 式 (schema) 是 一 系列 相 
关 对 象 的 集合 ， 包 括 但 不 仅 限 于 基本 表 、 视 图 、 域 、 约 束 、 字 符 集 、 触 发 器 和 角色 。 

如 果 不 止 一 个 用 户 在 数据 库 里 创建 了 对 象 ， 那 么 所 有 用 户 模式 的 组 合 信息 将 会 产生 整个 
数据 库 的 信息 。 每 个 目录 也 必须 包含 一 个 信息 模式 ， 包 含 了 该 目录 中 所 有 模式 的 描述 、 表 、 
视图 、 属 性 、 权 限 、 约 束 、 域 及 其 他 与 数据 库 相 关 的 信息 。 目 录 中 的 信息 是 用 户 SQL 命令 
的 结果 由 DBMS 维护 ， 不 需要 用 户 的 特意 操作 即 可 重建 。 这 也 是 SQL 语言 强大 能 力 的 一 个 
部 分 : 一 个 语法 简单 的 SQL 命令 就 可 能 导致 DBMS 软件 执行 复杂 的 数据 管理 操作 。 用 户 可 
以 通过 使 用 SQL 的 SELECT 语句 浏览 目录 的 内 容 。 

SQL 命令 可 以 分 为 三 种 类 型 。 第 一 种 是 数据 定义 语言 (Data Definition Language, DDL) 
命令 ， 可 以 用 来 创建 、 更 改 和 删除 表 、 视 图 、 索 引 ， 本 章 中 最 先 对 此 进行 讲述 。DDL 可 能 
会 控制 其 他 对 象 ， 这 取决 于 DBMS。 比如 ,许多 DBMS 支持 为 数据 库 对 象 定义 同义词 ( 缩 
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写 词 )， 或 者 允许 字段 获得 特定 的 序列 号 (这 将 有 助 于 在 表 的 元 组 中 分 配 主键 )。 在 产品 数据 
库 中 ,对 DDL 命令 通常 仅 限 于 一 个 或 者 多 个 数据 库 管 理 员 使 用 ， 以 此 来 保护 数据 库 结 构 免 
受 意外 的 或 不 被 允许 的 修改 。 在 开发 版 或 者 学 生 版 数据 库 中 ，DDL 权限 将 会 被 赋予 更 多 的 
用 户 。 


目录 :PROD_C 


ee 






需要 的 信息 模式 
用 户 模 式 : 


图 6-1 SQL:2008 标准 所 描述 的 典型 SQL 环境 的 简化 原理 图 


第 二 种 类 型 是 数据 操作 语言 ( Data Manipulation Language，DML ) 命令 。 许 多 人 认为 
DML 命令 是 SQL 的 核心 命令 。 这 些 命令 被 用 来 更 新 、 插 入 、 修 改 和 查询 数据 库 中 的 数据 。 
它们 可 以 交互 地 进行 ,语句 执行 之 后 立即 就 会 返回 查询 结果 ; 也 可 以 被 包含 在 像 C、Java、 
PHP 和 COBOL 等 编程 语言 或 者 使 用 GUI 工具 (比如 SQL 辅 
助 Teradata 或 MySQL 查询 浏览 颖 ) 编写 的 程序 中 。 退 入 式 和 列 名 
SQL 命令 会 提供 给 程序 员 关 于 报告 产生 时 间 、 界 面 外 观 、 错 | [WHERE 条 件 表达 式 ] 

误 处 理 和 数据 库 安全 性 等 方面 更 多 的 控制 ( 见 第 8 章 )。 本 | [GROUP BY 列 名 ] 
[HAVING 条 件 表 达 式 ] 
章 大 部 分 内 容 涵 盖 了 基本 的 DML 命令 ,采用 的 是 交互 格式 。 [ORDER BY 列 名 ] 
DML 中 SQL SELECT 命令 的 常用 语法 参见 图 6-2。 

最 后 ， 数 据 控制 语言 (Data Control Language，DCL) 命 图 6-2 DML 中 SELECT 查询 
令 帮助 DBA 控制 数据 库 ; 命令 包括 赋予 和 收回 对 数据 库 或 者 于 本 的 于 用 本 放 
数据 库 特 定 对 象 的 访问 权限 及 存储 或 移 除 可 能 会 影响 数据 库 的 事务 。 

每 个 DBMS 都 有 一 个 其 所 能 处 理 的 数据 类 型 的 定义 列表 ， 一 般 都 包括 数值 、 字 符 串 和 
日 期 /时 间 类 型 的 变量 。 有 些 还 包括 图 形 数据 类 型 、 空 间 数 据 类 型 或 者 图 像 数据 类 型 ， 这 些 
都 增强 了 数据 操作 的 灵活 性 。 当 创建 表格 的 时 候 ， 必 须 为 每 个 属性 指定 数据 类 型 。 特 定数 据 
类 型 的 选择 受到 需要 存储 的 数据 值 及 对 数据 期 望 的 使 用 的 影响 。 单 价 需 要 按 数值 格式 存储 ， 
因为 在 将 单价 与 订单 数量 做 乘法 计算 时 需要 进行 数学 运算 。 电 话 号 码 可 以 存 为 字符 串 数 据 类 
型 ， 尤 其 是 当 数 据 集中 包含 国外 电话 号 码 时 更 是 如 此 ， 因 为 即使 电话 号 码 只 包含 数字 ， 但 是 
对 电话 号 码 进行 加 或 者 乘 的 数学 运算 毫 无 意义 。 另 外 由 于 字符 型 的 数据 处 理 起 来 更 快 ， 所 以 
如 果 没 有 预期 的 算术 计算 ， 数 值 型 数据 应 该 被 存储 为 字符 型 数据 。 选 择 日 期 字段 而 不 是 字 
符 串 字段 将 允许 开发 者 使 用 日 期 /时 间 计 算 功 能 。 表 6-2 给 出 了 SQL 数据 类 型 的 一 些 例 子 。 
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SQL:2008 包含 三 种 新 的 数据 类 型 : BIGINT、MULTISET 和 XML。 这 些 新 的 数据 类 型 还 没 
有 作为 现 有 标准 的 增强 型 加 入 RDBMS 中 ， 读 者 需要 加 以 留意 。 
表 6-2 SQL 数据 类 型 样本 
存储 包含 字符 集中 任意 字符 的 字符 串 的 值 ，CHAR 长 度 固定 


CHARACTER VARYING| . ei i 
存储 包含 字符 集中 任意 字符 的 字符 串 的 值 ， 长 度 可 变 


字 
等 申 以 十 六 进 制 形式 存 储 二 进 制 字符 串 值 ，BLOB 为 可 变 长 度 
BINARY LARGE OBJECT 
(BLOR) Oracle 也 包含 CLOB 和 NCLOB 以 及 在 数据 库 之 外 存储 非 结 构 化 数据 的 
BFILE) 


履 全 根据 定义 的 精度 和 数值 范围 存储 准确 的 数字 
根据 定义 的 精度 和 数值 范围 存储 准确 的 整数 


时 间 TIMESTAMP TIMESTAMP | ”使 用 预定 义 的 精度 存储 事件 发 生 的 时 刻 。 值 对 应 于 用 户 会 话 的 时 区 (在 
WITHLOCALTIME ZONE “| Oracle 和 MySQL 中 同样 适用 ) 


布尔 BOOLEAN 存储 真 值 : TRUE 、FALSE 或 UNKNOWN 


考虑 到 图 形 和 图 像 数 据 类 型 十 分 丰富 ， 在 决定 如 何 存储 数据 的 时 候 有 必要 同时 考虑 业 
务 需 求 。 例 如 ， 颜 色 可 以 被 存储 为 一 个 描述 性 的 字符 字段 ， 比 如 “沙滩 ”或 者 “米色 ”。 但 
是 ， 在 不 同 厂 商 之 间 这 样 的 描述 会 是 不 同 的 ， 并 且 不 包含 空间 数据 类 型 所 包含 的 信息 量 ， 像 
精确 的 红 、 绿 、 蓝 强度 值 。 如 今 ， 这 样 的 空间 数据 类 型 存在 于 普遍 的 服务 器 中 ， 它 们 可 以 
处 理 数据 仓库 ， 并 且 在 不 久 的 未 来 也 可 能 出 现在 RDBMS 中 。 除 了 表 6-2 中 的 预定 义 数据 类 
型 ，SQL:1999 和 SQL:2008 还 支持 构造 数据 类 型 和 用 户 自 定义 数据 类 型 。 预 定义 数据 类 型 
远 远 不 止 表 6-2 列 出 的 那些 。 熟 悉 你 所 使 用 的 RDBMS 的 数据 类 型 是 非常 必要 的 ， 这 样 才能 
使 RDBMS 的 能 力 得 到 最 大 化 的 利用 。 

现在 我 们 可 以 开始 讲述 SQL 命令 的 样 例 了 。 图 6-3 显示 了 将 会 用 到 的 样本 数据 (由 微 
软 的 Access 绘制 )， 该 图 的 数据 模型 与 图 2-21 所 展示 的 相 一 致 。PVFC 数据 库 文件 可 以 从 
本 书 的 网 站 上 得 到 ; 这 个 文件 有 几 种 不 同 的 格式 ， 以 便 可 被 不 同 的 DBMS 所 用 。 该 数据 库 
还 可 以 从 Teradata 大 学 网 站 上 得 到 。 本 书 的 封面 上 有 介绍 如 何 找 到 它们 。 有 两 个 PVFC 文 
件 ， 本 书 使 用 的 是 BookPVFC (也 称 为 标准 PVFC)， 你 可 以 使 用 它 来 进行 整个 第 6 和 第 7 章 
中 的 SQL 查询 演示 。 男 一 个 文件 是 BigPVFC， 它 包含 更 多 的 数据 ， 而 且 并 非 总 是 与 图 2-21 
相 一 致 ， 也 不 一 定 每 次 都 能 展示 良好 的 数据 库 设 计 。 在 本 章 的 最 后 会 用 BigPVFC 做 一 些 
练习 。 

每 个 表 名 都 遵循 这 样 的 命名 标准 : 在 表 名 的 结尾 加 一 个 下 划 线 和 字母 T (table ( 表 ) 的 
首 字 母 )， 比 如 Order_T 或 Product_T (多 数 的 DBMS 都 不 允许 在 表 名 或 者 属性 名 中 有 空格 出 
现 )。 当 查看 这 些 表 时 ， 注 意 以 下 几 点 : 

1 ) 每 个 订单 在 Order_T 表 中 必须 有 一 个 有 效 的 客户 编号 Customer ID。 

2 ) 在 Orderline_T 表 中 订单 行 的 每 一 项 必须 包含 有 效 的 产品 编号 Product ID 和 与 之 相关 
的 有 效 订 单 编 号 Order ID。 

3 ) 这 四 张 表 展现 了 商业 数据 库 系 统 中 最 常见 的 一 种 关系 集 的 简化 版 本 一 一 客户 产品 订 
购 。 创 建 Customer_T 和 Order_T 表 所 需 的 SQL 命令 在 第 2 章 中 有 过 介绍 ， 在 这 里 将 会 做 些 
扩展 。 
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图 6-3 Pine Valley 家 具 公 司 的 数据 样本 


本 章 的 余下 部 分 将 会 对 DDL、DML 和 DCL 命令 进行 阐述。 图 6-4 给 出 了 一 个 概要 图 ， 
介绍 了 这 几 种 不 同类 型 的 命令 分 别 会 在 数据 库 开 发 过 程 的 哪个 阶段 用 到 。 在 SQL 的 说 明 中 ， 
我 们 会 用 到 以 下 符号 : 


DDL 

定义 数据 库 : 
CREATE (创建 ) 表 、 索 引 、 视 图 
建立 外 键 
删除 或 缩减 表 


DML 
填充 数据 库 : 
INSERT (插入 ) 数据 


UPDATE (更 新 ) 数据 库 
操作 数据 库 : 
SELECT 


DCL 


控制 数据 库 : 
GRANT, ADD, REVOKE 





图 6-4 DDL、DML、DCL 和 数据 库 开 发 过 程 
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1 ) 所 有 大 写 的 单词 表示 命令 。 尽 管 RDBMS 可 能 不 要 求 大 写 ， 我 们 还 是 严格 按照 显示 
的 形式 来 号 和 命令。 有些 RDBMS 会 在 输出 中 用 大 写字 母 来 显示 数据 名 ， 即 使 是 用 小 写字 母 
输入 的 也 如 此 (这 是 Oracle 的 风格 ， 本 书 中 除 特 别 说 明 外 均 采 用 这 种 方法 )。 表 、 列 、 命 名 
约束 等 以 大 小 写 混合 的 方式 表示 。 记 住 ， 表 的 命名 遵循 “_T” 的 约定 。SQL 命令 没有 “_”， 
所 以 表 名 和 列 名 比较 容易 区 分 。 同 样 ，RDBMS 在 数据 名 称 中 也 不 使 用 空格 ，ERD 的 多 个 
单词 组 成 的 数据 名 是 直接 拼 起 来 的 ， 中 间 不 存在 空格 。 这 样 的 结果 是 ， 列 名 QtyOnHand 在 
| RDBMS 中 可 能 会 被 显示 成 QTYONHAND (用 户 可 以 使 用 SELECT 的 子 句 ALIAS 对 列 名 重 
198| ”命名 ， 使 其 变 成 可 读 性 更 好 的 名 字 )。 
2 ) 小 写 和 大 小 写 混 合 的 单词 表示 的 是 需要 由 用 户 提 供 的 值 。 
3 ) 方 括号 内 的 是 可 选 语 法 。 
4 ) 省 略 号 表示 的 是 伴随 的 语法 子 句 在 需要 时 会 重复 。 
5 ) 每 个 SQL 命令 以 分 号 结束 。 在 交互 模式 中 ， 当 用 户 按 下 “Enter” 键 ，SQL 命令 将 会 
被 执行 。 要 警惕 某 些 习惯 ， 比 如 ,键入 “GO” 或 者 在 命令 的 每 行 的 结尾 加 些 符 号 ， 例 如 连 字 
符 。 本 书 使 用 的 间隔 和 缩 排 是 为 了 更 好 的 可 读 性 ， 并 不 属于 SQL 语法 标准 所 要 求 的 一 部 分 。 


6.3 用 SQL 定义 数据 库 


由 于 一 个 数据 库 被 创建 的 时 候 大 多 数 系统 要 为 基本 表 、 视 图 、 约 束 、 索 引 和 其 他 数据 库 
对 象 分 配 存储 空间 ， 所 以 可 能 不 会 允许 用 户 随意 地 创建 数据 库 。 正 因 如 此 ， 只 有 数据 库 管 理 
员 才 有 创建 数据 库 的 权限 ， 用 户 要 加 管理 员 请 求 获得 创建 数据 库 的 权限 。 大 学 里 的 学 生 可 能 
会 锌 分 配给 一 个 访问 已 有 数据 库 的 账户 ， 或 者 也 可 以 允许 他 们 在 有 限 的 存储 空间 内 创建 自己 
的 数据 库 〈《 有 时 称 表 空 间 )。 无 论 在 何 种 情况 下 ， 创 建 一 个 数据 库 结 构 的 基本 命令 都 是 : 
CREATE SCHEMA AUTHORIZATION owner_user_id 


数据 库 将 由 被 授权 的 用 户 所 拥有 ， 尽 管 其 他 指定 用 户 可 以 操作 该 数据 库 ， 甚 至 可 以 转移 
数据 库 的 所 有 权 。 数 据 库 的 物理 存储 取决 于 人 硬件 和 软件 环境 ， 这 通常 也 是 系统 管理 员 所 关心 
的 。 数 据 库 管理 员 可 以 控制 的 物理 存储 取决 于 所 使 用 的 RDBMS。 当 使 用 的 是 微软 的 Access 
时 ， 数 据 库 管理 员 具 有 很 少 的 控制 权 ， 但 是 当 使 用 微软 SQL Server 2008 及 以 后 版 本 时 ， 人 多 
许 对 物理 数据 库 更 多 的 控制 。 数 据 库 管理 员 可 以 对 数据 存放 、 控 制 文件 、 索 引文 件 、 模 式 所 
有 者 等 进行 控制 ， 由 此 使 数据 库 更 加 有 效 地 工作 ， 并 且 建 立 一 个 安全 的 数据 库 环境 。 


6.3.1 生成 SQL 数据 库 定义 
SQL:2008 有 一 些 SQL DDL CREATE 命令 (并 且 每 个 命令 的 后 面 跟着 要 创建 对 象 的 名 字 ): 


用 来 定义 特定 用 户 拥 有 的 数据 库 的 部 分 。 模 式 ( schema) 依赖 于 目录 (catalog)， 
CREATE SCHEMA( 创 建 模式 )| 并 且 包 含 基本 表 (base table)、 视 图 (view)、 域 (domain)、 断 言 (assertion )、 字 符 集 
(character set) 和 排序 (collation ) 等 模式 对 象 


定义 新 的 表 和 表 的 列 。 该 表 可 能 是 基本 表 (base table) 或 者 导出 表 (derived 

CREATE TABLE (创建 表 ) table)。 表 依赖 于 模式 (schema)。 导 出 表 由 执行 一 个 查询 时 创建 ， 该 查询 中 使 用 一 
或 多 个 表 或 视图 

从 一 个 或 多 个 表 或 视图 中 定义 逻辑 表 。 视 图 也 许 没 有 索引 。 通 过 视图 更 新 数据 时 


CREATE YEY 和 于 | 存在-- 些 限制 。 视 图 更 新 时 ， 这 些 变化 能 够 传递 到 建立 该 视图 所 参照 的 基本 表 中 
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当 创建 这 些 对 象 时 ， 你 不 一 定 要 做 到 非常 完美 ， 并且 这 些 对 象 也 不 必 一 直 存 在 。 每 一 个 
CREATE 命令 都 能 够 用 一 个 DROP (删除 ) 命令 删除 。 因 此 ,，“ DROP TABLE 表 名 ”语句 可 
以 销毁 一 个 表 ， 并 包括 它 的 和 定义、 内容、 一 切 约束 、 视 图 和 与 之 有 关联 的 索引 。 通 常 ， 只 有 
表 的 创建 者 可 以 删除 该 表 。DROP SCHEMA 或 者 DROP VIEW 命令 可 以 销毁 命名 的 模式 或 
者 视图 。ALTER TABLE 命令 可 以 用 来 添加 、 删 除 或 修改 一 列 或 者 删除 一 个 约束 来 改变 已 有 
表 的 定义 。 有 一 些 RDBMS 不 允许 用 户 对 表 更 改 ， 以 免 该 表 中 的 当前 数据 违反 新 的 定义 ( 比 
如 ， 当 前 数据 违反 一 个 约束 时 ， 就 不 能 创建 那个 新 约束 ， 或 者 如 果 改 变 了 数值 列 的 精度 ， 则 
可 能 使 很 多 已 有 值 的 其 他 精度 丢失 )。 


6.3.2 创建 表 


一 且 数 据 模 型 被 设计 及 规范 化 以 后 ， 每 个 表 的 列 也 就 可 以 通过 SQL CREATE TABLE 命 
令 进 行 定 义 。 图 6-5 显示 了 CREATE TABLE ( 创 
建 表 ) 的 一 般 语法 。 下 面 是 准备 创建 表 时 的 一 系 | CREATE TABLE 表 名 


({ 列 定义 【 表 约 束 ])) .… 

列 步骤 : [ON COMMIT {DELETE|P RESERVE} ROWS]) ; 

1 ) 为 每 个 属性 确定 合适 的 数据 类 型 ， 包 括 长 | 其 中 列 定 义 ; ,= 
度 、 精 度 和 数值 范围 。 列 名 

2 ) 如 第 5 章 所 讨论 的 ， 确 定 允 许 空 值 的 列 。 a 
指明 不 能 为 空 值 的 列 的 列 控制 是 在 一 个 表 创 建 的 [ 默认 值 ] 
时 候 就 建立 了 ， 并 且 在 表 有 新 数据 输入 的 每 次 更 [ 菲 序 子 名 
新 中 都 会 被 执行 。 表 约 束 ::= 

[CONSTRAINT 约束 名 ] 


3 ) 确定 要 保证 唯一 值 的 列 。 当 某 列 的 UNIQUE 
控制 建立 时 ， 表 中 每 行 数据 的 列 数据 值 必须 均 不 
相同 ( 即 无 重复 值 )。 当 某 个 列 或 列 集合 被 指定 为 
UNIQUE 时 ， 那 个 列 或 列 集合 就 是 第 4 章 讨论 的 候 
选 键 。 尽 管 每 个 基本 表 都 有 多 个 候选 键 , 但 只 有 一 个 候选 键 可 以 被 指定 为 PRIMARY KEY ( 主 
键 )。 当 一 列 被 指定 为 PRIMARY KEY 时 ， 也 就 意味 着 那 列 不 允许 为 空 值 (NOT NULL)， 即 使 
没有 特别 指出 也 如 此 。UNIQUE 和 PRIMARY KEY 都 是 列 约束 。 值 得 注意 的 是 ， 图 6-6 定义 
了 一 个 有 组 合 主 键 的 表 OrderLine_T。 约 束 OrderLine_PK 在 主键 约束 中 同时 包含 OrderID 和 
ProductID， 这 样 就 创建 了 组 合 键 的 方式 。 创 建 组 合 键 所 需要 的 属性 被 包含 在 圆 括 号 中 。 

4 ) 确定 所 有 的 主键 - 外 键 对 ， 如 第 4 章 所 展示 。 外 键 可 以 随 着 一 个 表 的 创建 或 改变 而 立 
即 建立 。 如 果 两 个 表 存 在 父 - 子 联系 ， 应 该 先 创建 父 表 ， 这 样 当 子 表 创 建 时 就 能 参照 已 建立 的 
父 表 。 列 约束 REFERENCES 可 以 用 来 实现 参照 完整 性 (例如 ，Order T 表 的 Order_FK 约束 )。 

5 ) 确定 要 求 默 认 值 的 那些 列 的 插入 值 。 当 用 户 没 有 键入 插入 值 时 ，DEFAULT 可 以 定义 
一 个 可 自动 插入 的 默认 值 。 在 图 6-6 中 ， 创建 Order_T 表 的 命令 就 为 OrderDate 属性 定义 了 
一 个 SYSDATE (Oracle 中 表示 当前 日 期 的 名 称 ) 的 默认 值 。 

6 ) 确定 需要 使 用 域 说 明 的 列 ， 这 些 列 要 比 那些 使 用 数据 类 型 建立 的 列 约束 力 更 强 。 
使 用 CHECK 作为 列 约束 ， 可 以 为 插入 到 数据 库 中 的 值 建立 有 效 性 规则 。 在 图 6-6 中 ， 
Product T 表 的 创建 包含 了 一 项 CHECK (检查 ) 约束 ， 列 出 了 Product_Finish 的 可 能 值 ， 
因此 ， 即 使 “White Maple” 满 足 VARCHAR 数据 类 型 的 约束 检查 ， 还 是 会 被 拒绝 ， 因 为 
“White Maple ”不 在 约束 值 列 表 当 中 。 


Constraint_type[ 约束 属性 ] 


图 6-5 数据 定义 语言 中 使 用 的 CREATE 
TABLE (创建 表 ) 的 一 般 语 法 
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CREATE TABLE Customer T 
(CustomerlD NUMBER(11,0) NOT NULL， 
CustomerName VARCHAR2(25) NOT NULL, 
CustomerAddress VARCHAR2(30), 
CustomerCity VARCHAR2(20), 
CustomerState CHAR(2), 
CustomerPostalCode VARCHAR2(9), 

CONSTRAINT Customer_ PK PRIMARY KEY (CustomerlD)); 


CREATE TABLE Order 下 
(OrderiD NUMBER(11,0), NOT NULL， 
OrderDate DATE DEFAULT SYSDATE， 
CustomerlID NUMBER(11,0), 
CONSTRAINT Order PK PRIMARY KEY (OrderlD), 
CONSTRAINT Order_FK FOREIGN KEY (CustomerlD) REFERENCES Customer_T(CustomerlD)); 


CREATE TABLE Product T 
(ProductIiD NUMBER(11,0) NOT NULL, 
ProductDescription VARCHAR2(50), 
ProductFinish VARCHAR2(20) 
CHECK (ProductFinish IN (‘Cherry", 'Natural Ash', "White Ash'， 
Red Oak', "Natural Oak', "Walnut')), 
ProductStandardPrice DECIMAL(6,2), 
ProductLinelD INTEGER, 
CONSTRAINT Product PK PRIMARY KEY (ProductID)); 


CREATE TABLE OrderLine T 
(OrderlD NUMBER(11,0) NOT NULL, 
ProductiD INTEGER NOT NULL， 
OrderedQuantity NUMBER(11,0), 
CONSTRAINT OrderLine PK PRIMARY KEY (OrderlD, ProductID), 
CONSTRAINT OrderLine_FK1 FOREIGN KEY (OrderlD) REFERENCES Order T(OrderlD), 
CONSTRAINT OrderLine_FK2 FOREIGN KEY (ProductID) REFERENCES Product T(ProductiD )); 





图 6-6 Pine Valley 家 具 公司 SQL 数据 库 定 义 命令 (Oracle 11g) 


7) 使 用 CREATE TABLE 和 CREATE INDEX 语句 创建 表 和 所 有 需要 的 索引 (CREATE 
INDEX 不 属于 SQL:1999 标准 。 索 引 被 用 来 解决 性 能 问题 ， 在 大 多 数 RDBMS 中 都 有 这 种 命令 )。 

图 6-6 使 用 Oracle 11g 展示 了 数据 库 定义 的 命令 ， 包 插 额 外 的 列 约束 及 命名 的 主键 一 外 
键 。 例 如 ，Customer 表 的 主键 是 CustomerID， 主 键 约束 被 命名 为 Customer_PK。 在 Oracle 
中 ,一 旦 一 个 约束 被 用 户 赋予 了 一 个 有 意义 的 名 字 ， 数 据 库 管理 员 将 会 很 容易 地 识别 客户 表 
中 的 主键 约束 ， 因 为 约束 名 字 Customer_PK 将 会 是 DBA_CONSTRAINTS 表 中 constraint_ 
name 列 的 值 。 如 果 用 户 没有 赋予 一 个 有 意义 的 约束 名 字 ， 系 统 会 自动 分 配 16 字 节 的 系统 标 
识 符 。 这 些 标识 符 不 仅 难以 阅读 ， 并 且 更 难 与 用 户 定 义 的 约束 匹配 。 现 在 还 无 法 获得 关于 系 
统 标识 符 是 如 何 产生 的 文档 ， 并 且 产 生 的 方法 也 是 随时 改变 。 注 意 : 请 将 所 有 约束 命名 ， 否 
则 ， 以 后 会 有 很 多 额外 的 工作 。 

当 定 义 外 键 约束 时 ， 将 执行 参照 完整 性 。 这 是 很 好 的 : 我 们 希望 在 数据 库 中 实现 业务 
规则 。 幸 运 的 是 ， 只 要 不 在 外 键 列 中 加 入 NOT NULL 子 句 ， 外 键 就 可 以 为 空 值 (意味 着 是 
零 候 选 联系 )。 比 如 ， 如 果 想 要 以 一 个 无 效 的 CustomerID 值 增加 一 个 订单 〈 每 一 个 订单 必 
须 与 一 些 客户 相关 联 ， 因 此 在 图 2-21 的 Submits 联系 中 ，Customer 端的 最 小 基数 为 1 )， 将 
会 出 现 错 误 信 息 。 每 个 DBMS 厂商 产生 自己 的 错误 信息 ， 并 且 这 些 信息 可 能 很 难 解释 。 微 
软 Access 的 目标 是 成 为 个 人 和 专业 应 用 ， 其 在 对 话 框 中 提示 简单 的 错误 信息 。 比 如 ， 对 
于 参照 完整 性 错误 ，Access 会 提示 以 下 错误 信息 :“ 你 无 法 添加 或 修改 该 记录 ， 因 为 表 
Customer_T 中 需要 与 之 相关 的 记录 ”。 除 非 该 条 记录 参照 的 表 Customer T 中 的 已 有 客户 ， 
否则 该 条 记录 无 法 插入。 
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Oracle 、MySQL 和 其 他 一 些 RDBMS 有 一 个 有 趣 的 “虚拟 表 ”， 它 是 由 数据 库 自动 定义 
的 ， 称 为 “双重 表 ”。 双 重 表 用 于 运行 与 系统 变量 相关 的 SQL 命令 ， 例 如 : 

SELECT Sysdate FROM Dual; 
显示 当前 时 间 ， 而 

SELECT 8 + 4 FROM Dual; 
显示 该 算术 运算 的 结果 。 


6.3.3 ”建立 数据 完整 性 控制 


在 图 6-6 中 ,我 们 已 经 了解 了 建立 外 键 的 语法 。 为 了 在 关系 数据 型 中 具有 1 对 多 ( 1:M) 
联系 的 两 表 之 间 建 立 参 照 完整 性 约束 ,“1” 端 的 表 的 主键 将 会 被 “多 ”端的 表 的 列 所 引用 。 
参照 完整 性 意味 着 ,“ 多 ”端的 相对 应 列 的 值 必须 与 “1” 端 的 某 行 的 主键 的 值 相 一 致 ， 或 者 
为 NULL。SQL REFERENCES 子 句 阻止 了 这 样 的 外 键 值 被 插入 ， 即 在 被 引用 的 主键 列 中 没 
有 这 样 一 个 有 效 的 值 。 除 此 之 外 ， 还 有 其 他 完整 性 问题 。 


6.3.4 ”修改 表 定 义 


基本 表 的 定义 可 以 通过 在 列 说 明 上 使 用 ALTER 来 进行 改变 。ALTER TABLE (修改 
表 ) 命令 可 以 用 来 为 已 有 表 增 加 新 的 列 和 修改 已 有 的 列 ， 还 可 以 添加 或 删除 表 约 束 。ALTER 
TABLE 命令 包括 关键 字 如 ADD (增加 )、DROP 和 ALTER， 并 且 人 允许 修改 列 名 称 、 数 据 类 
型 、 长 度 以 及 约束 。 通 常 ， 当 添加 新 的 列 时 ， 其 空 值 状 态 会 被 标记 为 NULL， 从 而 表 中 已 有 
的 数据 可 以 被 处 理 。 当 新 列 被 创建 时 ， 该 列 会 被 添加 到 表 中 的 所 有 实例 中 ， 其 取 值 为 NULL 
将 是 最 合理 的 。ALTER 命令 不 能 用 来 修改 视图 。 

语法 : 

ALTER TABLE table_name alter_ table_action:; 


一 些 有 效 的 修改 表 的 操作 如 下 : 


ADD [COLUMN] 列 定 义 

ALTER [COLUMN] 列 名 SET DEFAULT 默认 值 

ALTER [COLUMN] 列 名 DROP DEFAULT 

DROP [COLUMN] 列 名 [RESTRICT] [CASCADE] 

ADD 表 约 束 

命令 : 对 Customer 表 添 加 一 个 名 为 CustomerType 的 客户 类 型 列 。 


ALTER TABLE CUSTOMER _T 
ADD COLUMN CustomerType VARCHAR2 (2) DEFAULT “Commercial”"; 


ALTER 命令 对 于 一 个 数据 库 的 一 些 不 可 避免 的 修改 是 非常 重要 的 ， 这 些 修改 可 能 是 由 
于 需求 变化 、 原 型 迭代 、 发 展演 化 和 错误 等 原因 。 同 时 它 对 于 实现 将 大 量 数据 导入 到 含有 外 
键 的 表 中 也 非常 有 用 。 在 导入 时 ， 约 东 可 以 暂时 删除 ， 等 数据 导入 完成 后 ， 可 以 再 启用 约 
束 。 当 约束 被 重启 用 后 ， 对 于 那些 有 参照 完整 性 问题 的 记录 会 产生 一 个 日 志 。 当 大 量 数 据 在 
导入 过 程 中 有 参照 完整 性 问题 发 生 时 ， 并 不 是 停止 导入 ， 而 是 由 数据 库 管 理 员 查阅 日 志 并 调 
整 那些 数量 不 多 的 (希望 是 不 多 的 ) 有 问题 的 记录 。 
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6.3.5 ”删除 表 


要 想 从 数据 库 中 删除 表 ， 表 的 所 有 者 可 以 使 用 DROP TABLE 命令 。 删 除 视 图 可 以 使 用 
类 似 的 DROP VIEW 命令 。 
命令 : 从 数据 库 模式 中 删除 一 张 表 。 


DROP TABLE Customer 十 


这 个 命令 将 会 删除 Customer_T 这 张 表 ， 并且 保存 对 数据 库 引 起 的 修改 。 只 有 表 的 所 有 
者 或 是 被 授予 了 DROP ANY TABLE 权限 的 用 户 才 能 删除 该 表 。 表 删除 也 会 引起 关联 的 索引 
和 获得 的 优先 权 被 删除 。DROP TABLE 命令 可 以 用 关键 字 RESTRICT 和 CASCADE 进行 限 
制 。 如 果 使 用 了 RESTRICT， 当 存在 该 表 的 依赖 对 象 ， 比 如 视图 或 约束 时 ， 那 么 该 命令 将 会 
失败 ， 表 也 不 会 被 删除 。 如 果 使 用 了 CASCADE， 所 有 与 此 相关 的 对 象 都 会 随 着 该 表 的 删除 
而 被 删除 。 多 数 RDBMS 允许 用 户 使 用 TRUNCATE TABLE 命令 删除 表 中 输入 的 所 有 数据 而 
保持 表 结 构 。 更 新 和 删除 表 中 数据 部 分 的 命令 将 会 在 下 节 中 介绍 。 


6.4 插入 、 更 新 和 删除 数据 


表 一 有 旦 被 创建 ， 那 么 在 进行 查询 前 便 有 必要 向 表 中 填充 并 维护 数据 。SQL 中 用 于 向 表 中 
填充 数据 的 是 INSERT 命令 。 当 癌 表 中 的 每 一 列 输入 值 时 ， 可 以 使 用 如 下 给 出 的 命令 ， 它 是 
癌 Pine Valley 家 具 公 司 的 Customer_T 表 添 加 第 一 行 数据 。 请 注意 ， 插 入 数据 值 的 顺序 必须 
与 表 中 列 的 顺序 相 一 致 。 

命令 : 向 表 中 插入 一 行 数据 ， 表 中 每 个 属性 均 被 插入 一 个 相应 值 。 


INSERT INTO Customer_T VALUES 
(001, ‘Contemporary Casuals’, ‘1355 S$. Himes Blvd.’, ‘Gainesville’, ‘FL’, 32601); 


当 不 是 向 表 的 每 一 列 都 插入 值 时 ， 可 以 为 那些 空 字 段 输 入 NULL 或 只 指明 那些 需要 插 
入 数据 的 列 。 这 里 ， 数 据 值 的 顺序 也 必须 与 在 INSERT 命令 里 指明 的 列 一 致 。 例 如 ， 下 面 的 
语句 用 来 向 Product_T 表 中 插入 一 行 数据 ， 因 为 “End Table ”里 没有 产品 线 ID。 

命令 : 回 表 中 搬 人 一 行 数据 ， 表 的 某 些 属 性 为 空 值 。 


INSERT INTO Product T (ProductlD， 
ProductDescription, ProductFinish, ProductStandardPrice) 
VALUES (1, ‘End Table’, ‘Cherry’, 175, 8); 


通常 ，INSERT 命令 可 以 实现 以 下 动作 : 根据 命令 语句 中 提供 的 值 向 表 中 插入 新 行 ， 从 
其 他 数据 库 数据 复制 一 行 或 多 行 到 一 个 表 中 ,或 者 从 一 个 表 中 抽取 数据 并 插入 到 男 一 个 表 。 
如 果 你 想 向 一 张 表 中 填充 数据 ， 比 如 向 与 CUSTOMER_T 表 结 构 相 同 且 仅 含 有 Pine Valley 
的 California 客户 的 CaCustomer_T 中 填充 数据 ， 则 可 以 使 用 下 面 的 INSERT 命令 。 

命令 : 通过 使 用 与 其 表 结 构 相 同 的 另 一 个 表 的 子 集 来 填充 该 表 。 


INSERT INTO CaCustomer_T 
SELECT * FROM Customer _T 


WHERE CustomerState = CA 
许多 情况 下 ， 我 们 希望 每 次 表 中 添加 行 时 ， 产 生 唯 一 的 主 标识 符 或 主键 ， 客 户 的 ID 号 
就 是 一 个 很 好 的 例子 。SQL:2008 增加 了 一 个 新 特性 一 一 标识 列 ， 从 而 省 去 了 之 前 数据 插入 
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时 使 用 过 程 产生 序列 的 行为 。 为 了 利用 这 一 点 ， 图 6-6 展示 的 CREATE TABLE Customer_T 
语句 可 以 修改 成 以 下 形式 : 


CREATE TABLE Customer T 

(CustomerlD INTEGER GENERATED ALWAYS AS IDENTITY 
(START WITH 1 
INCREMENT BY 1 


MINVALUE 1 

MAXVALUE 10000 

NO CYCLE)， 
CustomerName VARCHAR2(25) NOT NULL, 
CustomerAddress VARCHAR2(30), 
CustomerCity VARCHAR2(20), 
CustomerSstate CHAR(2), 
CustomerPostalCode VARCHAR2(9), 


CONSTRAINT Customer_PK PRIMARY KEY (CustomerlD); 


一 个 表 中 只 有 一 列 可 以 作为 标识 列 。 如 果 厂 商 使 用 了 标识 列 ， 那 么 当 新 增加 一 个 客户 
时 ， 客 户 ID 会 被 隐 式 赋值 。 
因此 ， 回 表 Customer_T 中 添加 新 客户 的 命令 将 会 从 


INSERT INTO Customer_T VALUES 
(001, ‘Contemporary Casuals’, 1355 9. Himes Blvd.’, ‘Gainesville’, 
上 FL, 32601); 


变 为 


INSERT INTO Customer_T VALUES9 
(‘Contemporary Casuals’, ‘1355 9. Himes Blvd. ‘Gainesville’, ‘FL’, 32601); 


这 里 主键 值 001 并 不 需要 用 户 输入 。SQL:2008 更 是 简化 了 自动 产生 序列 的 语法 。 


6.4.1 删除 数据 库 内 容 


可 以 从 数据 库 删 除 单行 或 多 行 数 据 。 假 设 Pine Valley 家 具 公 司 决 定 不 再 处 理 位 于 
Hawaii 的 客户 ， 那 么 位 于 Hawaii 的 客户 的 Customer_T 表 的 行 可 以 使 用 以 下 命令 全 部 删除 。 
命令 : 从 Customer 表 删 除 符合 一 定 条 件 的 数据 行 。 


DELETE FROM Customer _T 
WHERE CustomerState = “HI” 


最 简单 的 DELETE (删除 ) 命令 格式 会 删除 一 个 表 里 的 所 有 数据 行 。 

命令 : 删除 Customer 表 的 所 有 数据 行 。 

DELETE FROM Customer_T; 

上 面 这 种 格式 的 命令 使 用 起 来 要 非常 小 心 ! 

如 果 删 除 操作 涉及 多 个 关系 的 数据 行 时 ， 使 用 起 来 也 要 当心 。 比 如 ， 我 们 如 之 前 的 操 
作 一 样 删除 Customer_T 表 的 一 行 ， 但 是 这 个 操作 是 发 生 在 删除 Order_T 相关 行 之 前 ， 这 时 
将 会 违反 参照 完整 性 ， 并 且 这 个 删除 命令 也 不 会 被 成 功 执行 。( 注 意 : 在 字段 定义 使 用 ON 
DELETE 子 句 可 以 解决 这 个 问题 ， 如 果 忘 记 了 ON 子 句 可 以 参考 6.3.3 节 。) SQL 会 真实 地 删 
除 由 DELETE 命令 选中 的 记录 ， 因 此 ， 通 常 我 们 先 执行 一 个 SELECT 命令 来 显示 将 要 被 删 
除 的 记录 ， 并 且 要 确保 只 有 我 们 期 望 删 除 的 数据 行 包 含 在 内 。 
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6.4.2 更 新 数据 库 内 容 


使 用 SQL 更 新 数据 必须 告知 DBMS 将 会 涉及 哪些 关系 、 行 和 列 。 如 果 Product_T 表 中 
输入 了 一 个 错误 的 餐桌 价格 ,那么 下 面 的 SQL UPDATE (更 新 ) 语句 将 会 纠正 该 错误 。 
命令 : 将 Product 表 的 7 号 产品 的 标准 价格 调整 为 775。 


UPDATE Product T 
SET ProductStandardPrice = 775 
WHERE ProductiD = 7; 


SET 命令 也 可 以 将 值 改 为 NULL， 语 法 是 SET 列 名 =NULL。 和 DELETE 命令 一 样 ， 
UPDATE 命令 的 WHERE 子 句 也 可 以 包含 一 个 子 查询 ， 但 是 被 更 新 的 表 不 会 在 子 查 询 中 引 
用 。 子 查询 的 知识 会 在 第 7 章 进 行 讨 论 。 


6.5 RDBMS 的 内 模式 定义 


关系 数据 库 的 内 模式 可 以 控制 处 理 和 存储 效率 。 下 面 是 调整 关系 数据 库 内 部 数据 模型 操 
作 性 能 的 一 些 技术 : 

1 ) 为 主键 或 二 级 键 建立 索引 ， 以 提高 行 选择 、 表 连接 和 行 排序 操作 的 速度 。 也 可 以 删 
除 案 引 来 提高 表 更 新 的 速度 。 关 于 索引 选择 可 以 参考 第 5 章 的 相关 内 容 。 

2 ) 为 基本 表 选 择 文件 组 织 方 式 ， 选 择 的 文件 组 织 要 与 这 些 表 上 处 理 操 作 的 类 型 相 匹配 
(例如 ， 通 过 频繁 使 用 的 报表 排序 键 来 保持 一 个 表 的 物理 有 序 )。 

3 ) 索引 也 是 一 种 表 ， 为 索引 选择 与 其 使 用 方式 相符 的 文件 组 织 方式 ， 并 且 为 索引 文件 
分 配额 外 的 存储 空间 ， 以 便 在 索引 增长 过 程 中 可 以 无 须 重 新 组 织 。 

4 ) 聚集 数据 ， 从 而 把 需要 频繁 进行 连接 操作 的 表 的 相关 数据 行 存 储 在 相近 的 位 置 ， 以 
此 来 减少 检索 时 间 。 

5 ) 对 于 表 与 其 索引 维持 统计 信息 ， 以 便 DBMS 可 以 发 现 执行 多 种 数据 库 操 作 的 最 有 效 
方式 。 

以 上 这 些 技术 并 非 适 用 于 所 有 SQL 系统 。 但 是 索引 和 聚集 是 通用 的 ， 所 以 在 下 面 章节 
中 将 会 对 其 进行 讨论 。 


创建 索引 


多 数 RDBMS 使 用 索引 来 提高 对 基本 表 数 据 的 随机 与 顺序 访问 速度 。 因 为 ISO SQL 标 
准 通常 不 考虑 性 能 问题 ， 所 以 其 中 不 包含 创建 索引 的 标准 语法 。 这 里 给 出 的 例子 使 用 的 是 
Oracle 的 语法 ， 让 读者 大 致 了 解 多 数 RDBMS 是 如 何 处 理 索 引 的 。 请 注意 ， 尽 管用 户 在 编写 
SQL 命令 时 并 没有 直接 引用 索引 ， 但 是 DBMS 会 知道 使 用 哪些 已 有 的 索引 可 以 提高 查询 性 
能 。 通 常 ， 主 键 或 二 级 键 、 单 列 或 多 列 上 都 可 以 创建 索引 。 在 一 些 系统 中 ,用 户 可 以 为 索引 
键 选 择 升序 或 降序 索引 。 

例如 ， 下 面 的 Oracle 命令 为 Customer T 表 的 CustomerName 列 按 字母 表 顺 序 建 立 了 索引 。 

命令 : 为 Customer 表 的 客户 姓名 列 按 字 母 表 顺序 建立 索引 。 

CREATE INDEX Name_IDX ON Customer_T (CustomerName); 


RDBMS 一 般 支 持 多 种 不 同类 型 的 索引 ， 以 此 协助 多 种 类 型 的 关键 字 查 找 。 比 如 ， 在 
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MySQL 中 ， 可 以 创建 唯一 (适用 于 主键 )、 非 唯一 (适用 于 二 级 键 )、 全 文 (用 于 全 文 搜索 )、 
空间 (用 于 空间 数据 类 型 ) 和 哈 希 (用 于 内 存 表 ) 索引 。 

索引 可 以 随时 创建 和 删除 。 如 果 关 键 字 列 中 已 经 存在 数据 ， 那 么 系统 将 会 自动 为 已 有 数 
据 填充 索引 。 如 果 索 引 被 定义 为 UNIQUE (使 用 语法 CREATE UNIQUE INDEX.… )， 但 是 已 
有 的 数据 违反 了 这 一 条 件 ， 那 么 建立 索引 的 操作 将 会 失败 。 索 引 一 旦 被 创建 ， 它 将 会 随 着 数 
据 的 输入 、 更 新 和 删除 而 更 新 。 

当 我 们 不 再 需要 这 些 表 、 视 图 和 索引 时 ， 可 以 使 用 相关 的 DROP 语句 。 比 如， 这 里 要 
从 之 前 的 例子 中 删除 NAME_IDX 索引 。 

上 令 : 删除 Customer 表 中 关于 客户 姓名 的 索引 。 


DROP INDEX Name_IDX; 


尽管 可 以 为 表 中 的 每 一 列 创建 索引 ， 但 是 在 决定 建立 一 个 新 的 索引 时 还 是 需要 谨慎 。 每 
一 个 索引 会 占用 额外 的 存储 空间 ， 并 且 当 索引 数据 值 发 生 改 变 时 还 需要 花费 时 间 来 维护 过 
引 。 这 些 开 销 加 在 一 起 ， 会 明显 降低 检索 啊 应 时 间 ， 给 在 线 用 户 造 成 讨厌 的 延迟 。 即 使 可 以 
为 关键 字 建 立 多 种 复杂 的 索引 ， 系 统 也 可 以 只 使 用 一 种 索引 。 数 据 库 的 设计 者 必须 准确 地 知 
道 特定 的 RDBMS 是 如 何 使 用 索引 的 ， 以 便 能 够 对 索引 做 出 明智 的 选择 。Oracle 包含 一 个 解 
释 计 划 工 具 ， 可 以 用 来 查看 SQL 命令 的 处 理 顺序 和 用 到 的 索引 。 输 出 还 包括 了 一 项 开销 估 
计 ， 可 以 用 来 对 多 种 不 同 索 引 下 的 语句 执行 进行 比较 ， 以 此 决定 最 有 效 的 索引 。 


6.6 单 表 操作 


“ 单 表 操作 ”可 能 看 起 来 就 像 是 镇 里 最 热 酒吧 的 星期 五 夜晚 ， 但 是 它 指 的 是 其 他 一 些 事情 。 

SQL 里 使 用 了 四 种 数据 操作 语言 命令 。 前 面 我 们 简要 介绍 了 前 三 种 (UPDATE、 
INSERT 和 DELETE)， 而 且 也 见 到 了 关于 第 四 种 命令 SELECT 的 几 个 例子 。 尽 管 UPDATE、 
INSERT 和 DELETE 命令 允许 用 户 修改 表 中 数据 ， 但 是 具有 多 种 子 句 形式 的 SELECT 命令 
允许 用 户 查 询 表 数据 并 提出 各 种 查询 问题 及 创建 特别 的 查询 。SQL 命令 的 基本 结构 相当 简单 
并 易于 学 习 ， 但 不 要 被 此 所 蒙蔽 。SQL 是 一 个 十 分 强大 的 工具 ， 它 使 用 户 可 以 指定 复杂 数据 
的 分 析 过 程 。 然 而 ， 由 于 基本 语法 易于 学 习 ， 所 以 也 较 易 编写 出 语法 正确 但 是 不 能 正确 回答 
问题 的 SELECT 查询 语句 。 因 此 在 将 查询 语法 运行 到 大 型 数据 库 之 前 ， 通 常会 先 在 小 型 数 
据 测试 集 上 进行 测试 ， 确 保 能 返回 正确 的 结果 。 除 了 人 工 检查 查询 结果 外 ,， 通 稍 也 将 查询 分 
为 几 个 更 小 的 部 分 ， 然 后 检查 这 些 简单 查询 的 结果 ， 最 后 将 它们 进行 合并 。 这 会 确保 它们 综 
合 起 来 能 够 按 预期 的 方式 执行 。 我 们 首先 讨论 单个 表 的 SQL 查询 ， 在 第 7 章 ， 将 学 习 表 的 
连接 操作 和 多 表 查 询 。 


6.6.1 SELECT 语句 中 的 子 句 
大 多 数 SQL 数据 检索 语句 会 包含 下 面 三 个 子 句 : 


列 出 基本 表 、 导 出 表 或 视图 的 列 (包括 有 关 列 的 表达 式 )， 这 些 列 会 被 投影 到 命令 的 结果 表 中 (这 也 是 
“ 列 出 你 想 要 展示 的 数据 ”的 专业 说 法 ) 
FROM 标识 要 显示 的 列 来 自 的 表 、 导 出 表 或 视图 ,包含 查询 处 理 过 程 中 需要 连接 的 表 、 导 出 表 和 视图 

包括 FROM 子 句 所 包含 的 条 目 中 的 行 选 择 条 件 以 及 表 、 导 出 表 和 视图 的 连接 条 件 。 因 为 SQL 被 认为 
是 一 种 集合 操作 语言 ， 所 以 WHERE 子 句 对 于 定义 被 操作 的 行 的 集合 是 非常 重要 的 


SELECTI 


WHERE 
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前 两 个 子 句 是 必须 要 求 的 ， 当 只 需 检 索 表 中 部 分 数据 行 或 多 个 表 间 有 连接 操作 时 要 使 用 
第 三 个 子 句 。( 本 节 中 的 大 多 数 例子 来 自 于 图 6-3 中 的 数据 。) 比如 ， 可 以 展示 Pine Valley 家 
具 公 司 PRODUCT 表 中 标准 价格 低 于 275 美元 的 那些 产品 的 名 字 和 数量 。 

查询 : 哪些 产品 的 标准 价格 低 于 275 美元 ? 


SELECT ProductDescription, ProductStandardPrice 
FROM Product T 
WHERE ProductStandardPrice < 275; 


结果 : 
PRODUCTDESCRIPTION PRODUCTSTANDARDPRICE 
End Table 175 
Computer Desk 250 
Coffee Table 200 


如 前 所 述 ， 本 书 中 使 用 Oracle 方式 展示 结果 ， 这 就 意味 着 列 标 题 均 使 用 大 写字 母 。 如 
果 这 对 于 用 户 来 说 太 过 困扰 的 话 ， 可 以 将 数据 名 定义 为 下 划 线 连接 的 单词 形式 (而 不 是 把 词 
连 在 一 起 ),， 或 者 用 别名 (在 以 下 章节 中 会 介绍 ) 来 重 定义 要 显示 的 列 名 。 

每 个 SELECT 语句 执行 时 会 返回 一 个 结果 表 (数据 行 的 集合 )。 所 以 ,SQL 是 一 致 的 一 一 
查询 的 输入 和 输出 都 是 表 。 当 涉及 更 复杂 的 查询 时 ， 这 点 会 变 得 非常 重要 ， 因 为 这 样 就 可 以 
使 用 一 个 查询 的 结果 作为 另 一 个 查询 的 一 部 分 (比如 ， 我 们 可 以 将 SELECT 语句 作为 元 素 之 
一 包含 在 FROM 子 句 中 ,创建 一 个 导出 表 ， 本 章 后 面 会 对 此 进行 介绍 )。 

在 显示 结果 列 时 有 两 个 特殊 的 关键 字 可 以 使 用 : DISTINCT 和 *。 如 果 用 户 不 想 在 结果 
中 出 现 重 复 的 数据 行 ， 可 以 使 用 SELECT DISTINCT。 在 之 前 的 例子 中 ， 如 果 Pine Valley 
家 具 公 司 的 其 他 一 款 computer desk 的 价格 也 是 250 美元 ， 那 么 查询 结果 中 将 会 出 现 重复 
数据 行 。 而 SELECT DISTINCT ProductDescription 的 结果 表 里 则 不 会 有 重复 的 数据 行 。 
SELECT* 中 的 “* ”表示 所 有 的 列 ， 会 显示 来 目 FROM 子 句 条 目 里 的 所 有 列 。 

请 注意 ，SELECT 语句 的 子 句 必须 保持 正确 的 顺序 ， 和 否则 会 产生 语法 错误 ,查询 也 无 
法 被 执行 。 可 能 还 有 必要 根据 所 使 用 的 SQL 版 本 对 数据 库 对 象 的 名 字 进 行规 范 化 。 如 果 在 
SQL 命令 里 有 任何 模 校 两 可 的 地 方 ， 就 必须 注意 要 准确 地 指明 查询 数据 来 自 于 哪个 表 、 导 
出 表 和 视图 。 比 如 ， 图 6-3 的 CustomerID 列 同时 存在 于 表 Customer_T 和 表 Order T 里 ， 
当 你 拥有 该 数据 库 的 使 用 权 并 且 需 要 的 是 Customer_ T 表 里 的 CustomerID ， 那 么 需要 使 用 
Customer_T.CustomerID 来 指明 。 如 果 要 Order T 表 里 的 CustomerID ， 那 么 需要 用 到 Order_ 
TCustomerID。 即 使 你 不 关心 CustomerID 来 自 于 哪个 表 ， 还 是 需要 加 以 指明 ， 因 为 没有 用 户 
的 指令 SQL 无 法 解决 这 种 模棱两可 的 问题 。 当 被 允许 使 用 别人 创建 的 数据 时 ， 你 也 必须 通过 
所 有 者 的 用 户 ID 来 指明 该 表 的 所 有 者 。 现 在 从 Customer_ T 表 选择 CustomerID 的 命令 会 变 
成 这 样 : OWNER_ID.Customer_T.CustomerID。 本 书 的 例子 中 ， 均 假设 读者 是 这 些 表 和 视图 
的 所 有 者 ， 这 样 的 SELECT 语句 将 会 更 易于 阅读 。 限 定 词 将 会 在 必要 时 使 用 ， 如 果 和 需要 也 可 
以 一 直 包 含 在 语句 中 。 当 限定 词 被 省 略 时 可 能 会 发 生 错误 ,但 是 包含 限定 词 时 永远 不 会 出 错 。 

如 果 感 觉 输 入 限定 词 和 列 名 比较 麻烦 ， 或 列 名 对 读者 毫 无 意义 ， 则 可 以 为 数据 名 建立 别 
名 ， 并且 这 些 别名 会 在 以 后 的 查询 中 使 用 。 尽 管 SQL: 1999 不 支持 别名 和 同义词 ， 但 是 它们 
已 被 广泛 使 用 ， 并 且 有 助 于 构建 可 读 性 好 和 简单 的 查询 。 
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查询 : 名 为 Home Furnishings 的 客户 的 地 址 是 什么 ”客户 名 使 用 别名 “Name”( 加 粗 的 
AS 子 句 只 是 为 了 强调 )。 


SELECT CUST.CustomerName AS Name, CUST.CustomerAddress 
FROM ownerid.Customer_T AS Cust 
WHERE Name = ‘Home Furnishings’; 

在 许多 SQL 版 本 中 ， 这 条 检索 语句 会 返回 下 面 的 结果 。 在 Oracle 的 SQL*Plus 中 ， 列 
的 别名 不 能 在 除了 HAVING 子 句 以 外 的 其 他 SELECT 语句 中 使 用 ， 所 以 为 了 使 查询 能 够 执 
行 ， 最 后 一 行 不 能 使 用 Name 而 是 要 用 CustomerName。 请 注意 ， 结 果 表 的 列 名 是 Name 而 
非 CustomerName， 尽 管 表 的 别名 在 FROM 子 句 里 才 被 定义 ,但 是 仍然 可 以 在 SELECT 了 于 
句 中 使 用 。 


结果 : 
NAME CUSTOMERADDRESS 
Home Furnishings 1900 Allard Ave. 


可 以 看 到 SQL 的 输出 结果 清晰 明了 。 使 用 别名 可 以 使 结果 中 的 列 名 更 具有 可 读 性 ( 别 
名 还 有 其 他 作用 ， 这 些 将 会 在 后 面 提 及 )。 多 数 RDBMS 提供 其 他 专门 的 SQL 子 句 ， 用 来 提 
高 数据 的 可 展示 性 。 比 如 ，Oracle 的 SELECT 语句 中 有 一 个 COLUMN 子 句 ， 可 以 用 来 改变 
列 标题 文本 、 列 标题 的 对 齐 方式 和 列 值 的 格式 ， 或 者 控制 列 数据 的 封装 等 。 

当 使 用 SELECT 语句 为 结果 表 选 择 数据 列 时 ， 这 些 列 可 以 被 重新 组 织 ， 所 以 在 结果 表 
里 会 有 不 同 于 原 表 的 列 顺序 。 实 际 上 ， 它 们 会 按 SELECT 语句 里 的 列 顺序 显示 在 结果 中 。 
回 过 头 再 看 图 6-3， 可 以 看 出 结果 表 与 基本 表 之 间 列 的 顺序 不 同 。 

查询 : 列 出 Product 表 里 所 有 产品 的 单位 价格 、 产 品名 称 和 产品 ID。 


SELECT ProductStandardPrice, ProductDescription, ProductlD 
FROM Product TT: 


结果 : 


PRODUCTSTANDARDPRICE PRODUCTDESCRIPTION PRODUCTID 
175 End Table 
200 Coffee Table 
S75 Computer Desk 
650 Entertainment Center 
325 Writer’s Desk 
750 8-Drawer Desk 
800 Dining Table 
250 Computer Desk 


OO Nm BW NN 一 


6.6.2 ”使 用 表达 式 


基本 的 SELECT...FROM...WHERE 子 句 可 以 通过 很 多 方式 用 于 单 表 。 可 以 创建 表达 式 来 
操作 表 里 所 选 的 数据 行 ， 这 些 表 达 式 可 以 是 表 里 数 据 的 数学 操作 ， 也 可 以 是 已 有 的 SUM 或 
AVG 等 函数 。 数 学 操作 可 以 使 用 如 下 运算 符 构造 :“ +” 表 示 加 法 ,“ 一 ”表示 减法 ,“*” 表 
示 乘 法 ,“/” 表 示 除 法 。 这 些 运算 符 可 以 用 于 任何 数值 型 的 列 。 结 果 表 的 每 一 行 都 要 进行 表 
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达 式 运算 ， 比 如 显示 一 个 产品 的 标准 价格 与 单位 价格 的 不 同 ， 或 涉及 列 和 函数 的 计算 ， 比 如 
一 个 产品 的 标准 价格 乘 以 订单 中 该 产品 卖 出 的 数量 (所 有 订单 中 的 数量 ( QrderedQuantities) 
和 )。 一 些 系 统 还 有 取 模 的 运算 符 ， 通常 用“ %” 来 表示 。 模 是 两 个 整数 相 除 后 的 整 余数 。 上 比 
如 ，14%4 的 结果 是 2， 因 为 14/4 结果 为 3， 余数 为 2。SQL 标准 支持 年 一 月 和 天 一 时 间 间 隔 ， 
使 得 可 以 对 日 期 和 时 间 进 行 算术 运算 〈 例 如， 从 当前 日 期 和 出 生日 期 来 计算 某 人 的 年 龄 ) 。 

也 许 你 想 要 知道 每 件 产品 当前 的 标准 价格 及 按 10% 比率 增长 时 产品 的 将 来 价格 ， 那 么 
可 以 使 用 SQL*Plus， 下 面 是 查询 及 结果 。 

查询 : 每 件 产品 的 标准 价格 及 按 10% 比率 增长 后 的 标准 价格 分 别 是 多 少 ? 


SELECT ProductID, ProductStandardPrice, ProductStandardPrice*1.1 AS 
Plus10Percent 
FROM Product TT: 


结果 : 
PRODUCTID PRODUCTSTANDARDPRICE PLUS10PERCENT 
2 200.0000 220.00000 
3 375.0000 412.50000 
1 175.0000 192.50000 
8 250.0000 275.00000 
7 800.0000 880.00000 
5 325.0000 357.50000 
4 650.0000 715.00000 
6 750.0000 825.00000 


复杂 表达 式 中 运算 符 遵 循 优 先 规则 ， 如 同 在 其 他 编程 语言 和 代数 中 一 样 。 圆 括号 里 的 表 
达 式 将 首先 被 计算 ,然后 是 乘法 和 除法 按照 从 左 到 右 的 顺序 进行 计算 ， 最 后 是 加 法 和 减法 ， 
也 是 从 左 往 右 计算 。 为 了 避免 混 消 ， 请 使 用 圆 括号 来 建立 顺序 。 当 有 内 内 括 号 时 ， 最 里 面 的 
括号 会 被 优先 计算 。 


6.6.3 ”使 用 函数 


标准 SQL 定义 了 一 系列 数学 计算 、 字 符 串 和 日 期 操作 等 图 数 。 本 节 会 介绍 一 些 数学 计 
算 函 数 ， 你 可 能 需要 了 解 你 所 使 用 的 DBMS 所 提供 的 函数 ， 其 中 一 些 是 那个 DBMS 所 特 
有 。 标准 的 函数 包括 : 

MIN，MAX，COUNT，SUM，ROUND ( 按 指 定 的 小 数位 将 数据 四 舍 五 人 )，TRUNC ( 伟 掉 
无 用 数字 ) 和 MOD (用 于 模 运 算 ) 

LOWER (将 所 有 字符 变 为 小 写 格 式 )，UPPER (将 所 有 字符 变 为 大 写 格式 )，INITCAP (只 将 
字符 串 首 字 母 设 为 大 写 格 式 ), CONCAT (连接 )，SUBSTR ( 取 特 定位 置 的 字符 )，COALESCE (在 一 列 
数据 中 找到 第 一 个 非 空 值 ) 

NEXT_DAY (计算 满足 指定 条 件 的 下 一 个 日 期 ) ADD_MONTHS (计算 给 定 日 期 之 前 或 之 后 
的 给 定 月 份 数 的 日 期 ) MONTHS_BETWEEN (计算 两 个 日 期 之 间 的 月 份 数 ) 

分 析 TOP (找到 一 个 集合 中 前 个 值 ， 比 如 年 销售 额 最 高 的 前 5 个 客户 ) 


也 许 你 想 要 知道 所 有 库存 产品 的 平均 标准 价格 。 为 得 到 整体 平均 值 ， 可 以 使 用 AVG 郴 
数 。 这 里 可 以 用 别名 AveragePrice 来 对 结果 表达 式 进 行 命 名 。 以 下 是 使 用 SQL*Plus 的 查询 


数学 计算 


日 期 
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和 结果 。 
查询 : 所 有 库存 产品 的 平均 标准 价格 是 多 少 ? 


SELECT AVG (ProductStandardPrice) As AveragePrice 
FROM Product 下 


结果 : 
AVERAGEPRICE 
440.625 

SQL:1999 包含 以 下 函数 : ANY、AVG、COUNT、EVERY、GROUPING、MAX、MIN、SOME 和 
SUM。SQL:2008 新 增加 了 LN 、EXP 、POWER 、SORT 、FLOOR 、CEILING 和 WIDTH_BUCKET 
这 些 函 数 。 每 个 新 的 SQL 标准 都 会 增加 新 的 图 数 ，SQL:2003 和 SQL:2008 增加 了 更 多 的 函数 ， 
其 中 许多 用 来 进行 数据 的 高 级 分 析 处 理 (例如 ， 计 算数 据 的 移动 平均 数 和 统计 样本 )。 正 如 上 述 
例子 所 示 ，SELECT 命令 里 所 指定 列 的 函数 (如 COUNT、MIN、MAX、SUM 和 AVG) 可 用 来 
指定 结果 表 包 含 的 聚集 数据 ， 而 非 行 数 据 。 使 用 以 上 任何 一 种 聚集 函数 ， 都 将 会 产生 单行 结果 。 

查询 : 1004 号 订单 一 共 订 购 了 多 少 种 不 同 的 产品 ? 


SELECT COUNT (*) 
FROM OrderLine T 
WHERE OrderID = 1004; 


结果 : 
COUNT (*) 
2 


看 起 来 可 以 通过 简单 地 改变 上 述 查 询 语 句 来 列 出 1004 号 订单 的 所 有 产品 。 
查询 : 1004 号 订单 一 共 订 购 了 多 少 种 不 同 的 产品 ? 它们 是 什么 ? 


SELECT ProductiD, COUNT (*) 
FROM OrderLine T 
WHERE OrderiD = 1004; 


以 下 是 Oracle 中 的 结果 。 

结果 : 

ERROR at line 1: 

ORA-00937: not a single-group group function 

下 面 是 Microsoft SQL Server 的 结果 。 

结果 : 

Column "orderLine_T.ProductID' is invalid in the select list because 


it is not contained in an Aggregate function and there is no 
GROUP BY clause. 


问题 在 于 : ProductID 对 应 所 选择 的 两 行 返回 了 6 和 8 两 个 值 ， 而 COUNT 对 于 ID=1004 
的 行 集合 返回 一 个 聚集 值 2。 在 多 数 实 现 中 ，SQL 不 能 同时 返回 一 个 行 值 和 一 个 集合 值 ; 用 户 
必须 分 别 执行 两 个 查询 ， 一 个 返回 行 信息 ， 另 一 个 返回 集合 信息 。 

如 果 想 要 知道 每 件 产品 的 标准 价格 与 所 有 产品 平均 标准 价格 〈 前 面 已 经 计算 过 ) 之 间 的 
差 值 ， 也 会 遇 到 类 似 问题 。 你 可 能 认为 的 查询 语句 如 下 : 


SELECT ProductStandardPrice ~ AVG(ProductStandardPrice) 
FROM Product TT: 
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然而 ， 我 们 又 将 列 值 和 聚集 值 混在 了 一 起 ， 这 将 会 产生 错误 。 回 想 一 下 ，FROM 子 句 可 
以 包含 表 、 导 出 表 和 视图 。 一 个 解决 上 述 错误 查询 的 方法 是 : DR 
正如 下 面 我 们 在 下 面 的 查询 样本 中 所 做 的 那样 。 

查询 : 对 于 每 个 产品 显示 其 标准 价格 与 所 有 产品 的 平均 标准 价格 之 间 的 差 值 。 


SELECT ProductStandardPrice - PriceAvg As Difference 
FROM Product T, (SELECT AVG(ProductStandardPrice) AS PriceAvg 
FROM Product_T); 


结果 : 
DIFFERENCE 
-240.63 
-65.63 
-265.63 
-190.63 
359.38 
-115.63 
209.38 
309.38 
另外 ， 函 数 COUNT(* ) 和 COUNT 也 容易 混淆 ， 之 前 查询 里 用 到 的 COUNT(* ) 函数 会 
计算 查询 选中 的 所 有 行 ， 不 管 是 否 是 含有 空 值 的 行 。 而 COUNT 会 忽略 空 值 ， 只 计数 含 非 空 
数值 的 行 。 
SUM 和 AVG 函数 只 能 用 在 数值 列 中 。COUNT 、COUNT(*)、MIN 和 MAX 可 以 用 于 任 
意 数 据 类 型 中 。 比 如 ， 文 本 列 使 用 MIN 时 ， 会 找到 列 最 小 值 ， 即 首 字 母 最 接近 字母 表 开 始 的 
值 。 不 同 的 SQL 实现 对 于 字母 表 的 顺序 有 不 同 的 解释 。 比 如 ， 一 些 系 统 可 能 以 A 一 Z 开 始 ， 
然后 是 a 一 z， 最 后 是 0 一 9 和 其 他 特殊 字符 。 有 些 系统 将 大 写 与 小 写字 母 同 等 处 理 。 还 有 的 
系统 从 特殊 字符 开始 ， 然 后 是 数字 、 字 母 和 其 他 专用 字符 。 下 面 的 查询 返回 按 字 母 表 顺 序 时 
Product T 里 第 一 个 ProductName (产品 名 )， 使 用 了 Oracle 11g 的 AMERICAN 字符 集 。 


查询 : 按 字 母 表 顺 序 ，Product 表 里 的 第 一 个 产品 的 名 字 是 什么 ? 


SELECT MIN (ProductDescription) 
FROM Product 下 


这 个 查询 给 出 了 下 面 的 结果 ， 也 说 明了 在 这 个 字符 集中 数字 是 排 在 字母 前 面 的 。[ 注意 : 
以 下 是 Oracle 的 结果 ，Microsoft SQL Server 会 返回 相同 的 结果 ， 但 是 使 用 SQL 查询 分 析 需 
给 列 (不 是 列 名 ) 标记 ， 除 非 查 询 为 结果 指定 了 名 字 ] 

结果 : 


MIN(PRODUCTDESCRIPTION) 
8-Drawer Desk 


6.6.4 ”使 用 通配符 


前 面 已 经 介绍 过 使 用 星 号 * 作为 SELECT 语句 里 的 通配符 。 在 WHERE 子 句 中 ， 当 无 法 
做 出 精确 匹配 时 ， 也 可 以 用 通配符 。 这 里 ， 关 键 字 LIKE 与 通配符 相 匹 配 ， 通 常 是 一 个 包含 期 
望 匹配 的 已 知 字符 的 字符 串 。 通 配 符 % 用 于 表示 任意 字符 集合 。 因 此 ， 当 使 用 LIKE '%Desk' 
搜索 Product Description 时 ， 将 会 得 到 Pine Valley 家 具 公 司 所 有 不 同类 型 的 桌子 。 通 配 符 
下 划 线 (_) 用 来 表示 单个 字符 ， 而 非 任意 字符 集合 。 因 此 ， 当 使 用 LIKE '_-drawer' 来 搜索 
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Product Name 时 ， 会 得 到 所 有 产品 名 中 和 带 有 'drawer' 的 产品 ， 比 如 3-drawer 、5-drawer 、8-drawer 


梳妆 台 。 


6.6.5 ”使 用 比较 运算 符 


本 节 中 ， 除 了 第 一 个 SQL 例子 外 ， 在 WHERE 子 句 中 使 用 的 都 是 “相等 ”比较 运算 符 。 


第 一 个 例子 使 用 的 是 大 于 (小 于 ) 运算 符 。 表 6-3 列 出 了 SQL 
里 最 篆 见 的 比较 运算 符 。( 不 同 的 SQL DBMS 使 用 不 同 的 比 


表 6-3 SQL 中 的 比较 运算 符 


较 运 算 符 。) 你 可 能 习惯 于 对 数值 数据 使 用 比较 运算 符 ， 但 是 人 本 
在 SQL 中， 可 以 同样 对 字符 数据 和 日 期 数据 使 用 比较 运算 > 大 于 
符 。 下 面 的 查询 列 出 了 2010 年 10 月 24 号 之 后 的 所 有 订单 。 大 于 等 于 
查询 : 哪些 订单 是 在 2010 年 10 月 24 号 之 后 提交 的 ? 人 
SELECT OrderlD, OrderDate 不 等 于 
FROM Order T 


WHERE OrderDate > '24-OCT2010': j= 不 等 于 
请 注意 : 日 期 包含 在 单 引 号 中 ， 并 且 日 期 的 格式 也 与 图 6-3 中 的 有 所 不 同 ， 图 6-3 来 自 
于 Microsoft Access。 这 个 查询 语句 要 在 SQL Plus 中 运行 。 你 应 该 查看 你 所 用 的 SQL 语言 
的 参考 手册 ， 以 确定 查询 中 及 数据 输入 时 的 日 期 格式 。 


结果 : 


ORDERID 


ORDERDATE 


1007 
1008 
1009 
1010 


27-OCT-10 
30-OCT-10 
05-NOV-10 
05-NOV-10 


查询 : Pine Valley 公司 的 哪些 家 具 不 是 用 樱桃 木 制作 的 ? 


SELECT ProductDescription, ProductFinish 
FROM Product T 
WHERE ProductFinish != “Cherry ; 


结果 : 


PRODUCTDESCRIPTION 


Coffee Table 
Computer Desk 


Entertainment Center 


8-Drawer Desk 
Dining Table 
Computer Desk 


6.6.6 使 用 NULL 值 


没有 用 NOT NULL 子 句 定义 的 列 可 能 会 为 空 ， 这 对 于 一 个 组 织 来 说 非常 重要 。 你 可 能 记 
得 空 值 意味 着 某 列 没有 值 ， 值 不 为 0、 不 为 空白 或 者 其 他 特殊 编码 ， 只 是 简单 地 没有 值 存 在 。 


PRODUCTFINISH 
Natural Ash 
Natural Ash 
Natural Maple 
White Ash 
Natural Ash 
Walnut 


[213 


206 和 之 四 部 分 实 现 


我 们 已 经 知道 ， 对 于 列 值 为 空 和 列 值 为 0 这 两 种 情况 ， 函 数 所 产生 的 结果 不 同 。 空 值 的 情况 是 

很 常见 的 ， 所 以 在 决定 如 何 编写 其 他 命令 之 前 ， 先 要 检查 是 否 有 空 值 存在 ,或 者 只 是 简单 地 看 

一 下 表 中 含 空 值 的 数据 。 比 如 ， 在 承担 一 个 邮局 邮件 广告 活动 之 前 ， 你 可 能 要 执行 以 下 查询 : 
查询 : 列 出 所 有 未 知 邮编 的 客户 。 


SELECT * FROM Customer T WHERE CustomerPostalCode IS NULL; 


结果 : 

幸运 的 是 ， 在 我 们 的 样本 数据 库 中 该 查询 返回 0 行 结 果 ， 所 以 可 以 把 广告 邮寄 给 所 有 的 
客户 ， 因 为 我 们 知道 他 们 的 邮编 。IS NOT NULL 返回 指定 列 中 没有 空 值 的 数据 行 。 这 使 得 
用 户 可 以 只 处 理 关键 列 上 有 值 的 行 ， 而 忽略 其 他 行 。 


6.6.7 ”使 用 布尔 运算 符 


你 可 能 之 前 学 习 过 有 限 或 离散 数学 一 一 逻辑 、 维 恩 图 和 集合 论 等 课程 。 之 前 讲 过 SQL 
是 面向 集合 的 语言 ， 所 以 很 多 时 候 可 以 用 已 学 过 的 有 限 数 学 知识 来 编写 复杂 的 SQL 查询 。 
有 些 复杂 问题 可 以 通过 进一步 调整 WHERE 子 句 来 解决 。 布 尔 或 逻辑 运算 符 AND、OR 和 
NOT 可 以 有 很 重要 的 用 途 : 


AND 连接 两 个 或 多 个 条 件 ， 只 有 当 所 有 条 件 为 真 时 返回 结果 
OR 连接 两 个 或 多 个 条 件 ， 任 意 一 个 条 件 为 真 时 返回 结果 
NOT 对 一 个 表达 式 求 反 


如 果 在 一 个 SQL 语句 中 使 用 了 多 个 布尔 运算 符 ， 则 NOT 先 被 计算 ， 其 次 是 AND， 然 
后 是 OR。 例 如， 考虑 下 面 的 查询 : 

查询 : 列 出 Product 表 中 所 有 书桌 (desk) 的 产品 名 称 、 材 质 和 标准 价格 以 及 成 本 高 于 
300 美元 的 果子 (table ) 。 


SELECT ProductDescription, ProductFinish, ProductStandardPrice 
FROM Product T 
WHERE ProductDescription LIKE "%Desk” 
OR ProductDescription LIKE ‘%Table’ 
AND ProductStandardPrice > 300; 


结果 : 
PRODUCTDESCRIPTION PRODUCTFINISH PRODUCTSTANDARDPRICE 
Computer Desk Natural Ash 375 
Writers Desk Cherry 325 
8-Drawer Desk White Ash 750 
Dining Table Natural Ash 800 
Computer Desk Walnut 250 


上 述 查 询 结 果 列 出 了 所 有 的 书桌 (desk)， 即 使 是 标准 价格 低 于 300 美元 的 Computer 
Desk。 但 是 只 有 一 个 桌子 (table) 被 列 出 来 了 ， 标 准 价格 低 于 300 美元 的 昌 子 没有 被 列 出 
来 。 在 这 个 查询 中 ( 见 图 6-7 )， 会 首先 处 理 AND ,返回 所 有 标准 价格 高 于 300 美元 的 桌子 。 
然后 处 理 的 是 OR 运算 符 之 前 的 查询 部 分 ， 返 回 所 有 的 书桌 。 最 后 ， 查 询 的 这 两 部 分 的 结果 
合并 (OR)， 最 终结 果 就 是 所 有 的 书桌 和 标准 价格 高 于 300 美元 的 果子 。 
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第 3 站 
最 后 的 结果 是 这 两 部 分 
区 域 的 合并 (OR) 乡 






GIN 


A 


300 美元 的 产品 





第 1 步 AND 过 程 


WHERE 
ProductDescription 
LIKE ‘% Table’ 
AND 
StandardPrice >$300 

































ProductDescription 
LIKE '% Desk’ 


第 2 步 OR 过 程 
图 6-7 不 使 用 圆 括 号 的 布尔 查询 A 


如 果 我 们 想 要 返回 标准 价格 高 于 300 美元 的 书桌 及 桌子 ， 则 需要 在 上 述 查 询 的 WHERE 
之 后 和 AND 之 前 加 上 圆 括号 ， 如 下 面 的 查询 B 所 示 。 图 6-8 显示 了 查询 中 使 用 了 圆 括号 所 
导致 的 不 同 的 处 理 过 程 ， 结 果 返 回 了 所 有 标准 价格 高 于 300 美元 的 书桌 和 桌子 ， 在 图 中 用 水 
平 线 填充 的 区 域 表 示 。 标 准 价格 低 于 300 美元 的 胡桃 木 书桌 未 被 包含 在 结果 中 。 
第 1 步 OR 过 程 






WHERE | 
ProductDescription LIKE 
‘%Desk’ OR 










300 美元 的 产品 





StandardPrice >$300 





图 6-8 使 用 圆 括 号 的 布尔 查询 B 
查询 B : 列 出 PRODUCT 表 中 成 本 超过 300 美元 的 书桌 及 桌子 的 产品 名 、 材 质 和 标准 价格 。 


SELECT ProductDescription, ProductFinish, ProductStandardPrice 
FROM Product 
WHERE (ProductDescription LIKE ‘%Desk’ 
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OR ProductDescription LIKE ‘% Table’) 
AND ProductStandardPrice > 300; 


下 面 是 结果 ， 只 包括 了 单价 高 于 300 美元 的 产品 。 


结果 : 
PRODUCTDESCRIPTION PRODUCTFINISH PRODUCTSTANDARDPRICE 
Computer Desk Natural Ash 375 
Writers Desk Cherry 325 
8-Drawer Desk White Ash + 750 
Dining Table Natural Ash 800 


这 个 例子 解释 了 为 什么 SQL 被 认为 是 一 种 面向 集合 而 非 面 向 记录 的 语言 。( C、Java 和 
Cobol 是 面向 记录 的 语言 ， 因 为 它们 一 次 只 能 处 理 表 的 一 个 记录 或 一 行 ) 为 了 应 答 这 个 查询 
SQL 会 找到 Desk 产品 的 行 的 集合 ， 然 后 与 Table 产品 的 行 的 集合 进行 合并 。 最 后 ， 对 合并 
的 集合 与 标准 价格 高 于 300 美元 的 行 集合 取 交 和 集 (找到 相同 行 )。 如 有 果 使 用 索引 ， 则 查询 的 
处 理 过 程 会 更 加 快速 ， 因 为 SQL 会 创建 满足 每 个 限制 条 件 的 索引 实体 的 集合 ， 并 在 这 些 索 
引 实 体 上 作 和 集合 操作 ， 这 会 降低 存储 空间 的 使 用 ， 使 得 操作 变 得 更 快 。 第 7 章 中 以 更 加 图 形 
化 的 方式 展示 了 用 SQL 面向 集合 的 特征 来 解决 涉及 多 表 操 作 的 更 复杂 的 查询 。 


6.6.8 使 用 范围 限制 


比较 运算 符 “<” 和 “>” 用 于 建立 值 的 范围 ， 也 可 以 使 用 关键 字 BETWEEN 和 NOT 
BETWEEN。 例如 ， 下 面 的 查询 用 于 找 出 标准 价格 在 200 美元 至 300 美元 之 间 的 产品 。 
查询 : 在 Product 表 中 ， 哪 些 产品 的 标准 价格 位 于 200 美元 至 300 美元 之 间 ? 


SELECT ProductDescription, ProductStandardPrice 
FROM Product T 
WHERE ProductStandardPrice > 199 AND ProductStandardPrice < 301; 


结果 : 
PRODUCTDESCRIPTION PRODUCTSTANDARDPRICE 
Coffee Table 200 
Computer Desk 250 
下 面 的 查询 会 产生 同样 的 结果 。 


查询 : 在 PRODUCT 表 中 ， 哪 些 产 品 的 标准 价格 在 200 美元 至 300 美元 之 间 ? 


SELECT ProductDescription, ProductStandardPrice 
FROM Product T 
WHERE ProductStandardPrice BETWEEN 200 AND 300; 


结果 : 与 之 前 结果 相同 。 
在 这 个 查询 的 BETWEEN 之 前 添加 NOT， 会 返回 Product_T 里 所 有 价格 小 于 200 美元 
或 高 于 300 美元 的 产品 。 


6.6.9 使 用 DISTINCT 


有 时 ， 当 返回 行 中 不 包含 主键 时 会 出 现 重 复 行 。 例 如 ， 参 见 下 面 的 查询 及 其 返回 结果 。 
查询 : OrderLine 表 里 包含 哪些 订单 号 ? 
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SELECT OrderID 
FROM OrderLine 二 


结果 返回 了 18 行 ， 由 于 许多 订单 对 应 多 个 条 目 ， 所 以 有 许多 重复 行 。 
结果 : 


ORDERID 
1001 
1001 
1001 
1002 
1003 
1004 
1004 
1005 
1006 
1006 
1006 
1007 
1007 
1008 
1008 
1009 
1009 
1010 

18 rows selected. 


在 这 个 结果 中 ， 我 们 真 的 需要 哪些 元 余 OrderID 吗 ? 如 果 在 查询 语句 中 加 入 DISTINCT 
关键 字 ， 那 么 结果 中 将 只 有 10 个 OrderID ， 每 个 OrderID 只 返回 一 次 。 
查询 : OrderLine 表 里 有 哪些 不 同 的 订单 号 ? 3 了 


SELECT DISTINCT OrderID 
FROM OrderLine 十 


结果 : 


ORDERID 
1001 
1002 
1003 
1004 
1005 
1006 
1007 
1008 
1009 
1010 

10 rows selected. 
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DISTINCT 和 ALL 关键 字 在 SELECT 语句 中 只 能 出 现 一 次 。 它 在 SELECT 之 后 , 但 是 
在 所 有 列 出 的 列 或 表达 式 之 前 。 如 果 一 个 SELECT 语句 投影 多 列 ， 那 么 每 列 值 相同 的 行 会 
被 删除 。 因 此 ， 如 果 之 前 的 语句 也 包含 OrderedQuantity， 那 么 会 返回 14 行 ， 因 为 这 时 重复 
的 行 数 为 4 而 不 是 8。 例 如 ，1004 号 订单 的 两 个 条 目的 数量 均 为 2， 那 么 第 2 对 1004 和 2 
将 会 被 删除 。 

查询 : OrderLine 表 中 ， 有 哪些 不 同 的 订单 号 与 订单 数量 的 组 合 ? 


SELECT DISTINCT OrderlD, OrderedQuantity 
FROM OrderLine _T; 


结果 : 


ORDERID ORDEREDQUANTITY 
1001 
1001 
1002 
1003 
1004 
1005 
1006 
1006 
1007 
1007 
1008 
1009 
1009 
1010 
14 rows selected. 


WW NW WwW NN 一 人 NW VN 一 
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OO 


6.6.10 在 列表 中 使 用 IN 和 NOT IN 


考虑 使 用 IN 来 返回 匹配 值 的 列表 。 
查询 : 列 出 所 有 居住 在 较 温暖 的 州 的 客户 。 


SELECT CustomerName, CustomerCity, CustomerState 
FROM Customer_T 
WHERE CustomerState IN (FL’, ‘TX’, ‘CA', 'HI"); 


结果 : 

CUSTOMERNAME CUSTOMERCITY CUSTOMERSTATE 
Contemporary Casuals Gainesville FL 

Value Furniture Plano TX 

Impressions Sacramento CA 

California Classics Santa Clara CA 

M and H Casual Furniture Clearwater FL 

Seminole Interiors Seminole FL 

Kaneohe Homes Kaneohe HI 


7 rows selected. 
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在 有 子 查询 的 SQL 语句 中 ，IN 关键 字 具 有 特殊 的 作用 。 子 查询 的 知识 会 在 第 7 章 中 介 
绍 。IN 的 使 用 也 非常 符合 SQL 的 集合 特性 。 很 简单 ，IN 之 后 括号 中 的 列表 ( 值 的 集合 ) 可 
以 是 文字 ， 如 上 面 的 例子 ， 也 可 以 是 包含 单列 结果 的 SELECT 语句 ， 该 语句 的 结果 将 作为 比 
较 的 值 集 插入 。 实 际 上 ， 有 些 SQL 程序 员 经 常 使 用 IN， 即 使 IN 之 后 的 括号 内 只 包含 单个 
条 目 也 是 如 此 。 类 似 地 ，FROM 子 句 中 的 任何 table 可 以 是 通过 包含 FROM 子 句 中 括号 内 的 
SELECT 语句 来 定义 的 导出 的 表 (正如 之 前 见 到 的 ， 关 于 每 个 产品 的 标准 价格 与 所 有 产品 的 平 
均 标准 价格 之 间 的 差 值 的 查询 )。 在 SQL 语句 中 涉及 集合 的 地 方 使 用 SELECT 语句 是 SQL 非 
党 强大 和 有 用 的 功能 ， 并 且 这 与 SQL 作为 面向 集合 的 语言 完全 相 一 致 ， 如 图 6-7 和 6-8 所 示 。 


6.6.11 结果 排序 : ORDER BY 子 句 


再 看 一 下 以 上 的 查询 结果 ， 可 能 这 样 的 列表 会 更 有 意义 : 先是 California 的 客户 ， 之 后 
是 Floridians 、Hawaiians 和 Texans 的 客户 。 这 就 市 来 了 SQL 语句 其 他 三 种 基本 成 分 : 
ORDER BY | 对 最 后 的 结果 行进 行 升序 或 者 降序 排序 
GROUP BY | 在 中 间 结 果 表 中 对 行 分 组 ， 其 中 一 列 或 多 列 上 值 相 同行 的 被 分 到 一 组 
HAVING 只 能 在 GROUP BY 之 后 使 用 ， 作 用 如 同 第 二 WHERE 子 句 ， 只 返回 满足 某 个 特定 条 件 的 分 组 
所 以 ， 我 们 可 以 通过 添加 ORDER BY 子 句 来 对 客户 (customers) 进行 排序 。 
查询 : 在 Customer 表 中 ， 列 出 所 有 居住 在 Florida 、Texas 、California 和 Hawaii 的 所 有 
客户 的 客户 名 字 、 城 市 和 州 。 按 州 的 字母 序 排序 客户 ， 同 一 个 州 的 客户 按照 客户 名 字 字 母 序 
排序 。 


SELECT CustomerName, CustomercCity CustomerState 
FROM Customer 了 
WHERE CustomerState IN (‘FL’, TX’, “CA， ‘HI") 
ORDER BY CustomerState, CustomerName:; 


这 时 的 查询 结果 更 容易 阅读 了 。 

结果 : 

CUSTOMERNAME CUSTOMERCITY CUSTOMERSTATE 
California Classics Santa Clara CA 

Impressions Sacramento CA 

Contemporary Casuals Gainesville FL 

M and H Casual Furniture Clearwater FL 

Seminole Interiors Seminole FL 

Kaneohe Homes Kaneohe HI 

Value Furniture Plano TX 


7 rows selected. 


注意 : 每 个 州 的 所 有 客户 被 列 到 一 起 ， 并 且 同 一 个 州 的 所 有 客户 是 按 字 母 序 排序 的 。 排 
列 的 顺序 是 由 ORDER BY 子 句 中 所 包含 的 列 的 顺序 决定 的 。 在 这 个 例子 中 ， 先 对 州 按 字 母 
序 排序 ， 再 对 客户 名 字 按 字母 序 排序 。 如 果 是 降序 排序 ， 可 以 用 DESC 作为 关键 字 放 在 要 排 
序 的 列 之 后 。 在 ORDER BY 子 句 中 ， 也 可 以 不 用 输入 列 的 名 字 ， 而 选择 用 它们 在 SELECT 
列表 中 列 的 位 置 。 例 如 ， 在 之 前 的 查询 中 ,我 们 可 以 用 下 面 的 查询 子 句 : 


ORDER BY 3, 1; 
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有 些 情况 下 ， 结 果 表 中 有 许多 行 ， 而 你 只 需要 前 面 几 行 的 结果 。 许 多 SQL 系统 (包括 
MySQL) 支持 LIMIT 子 句 ， 如 下 面 所 示 的 查询 ， 该 查询 仅 列 出 了 结果 的 前 5 行 : 


ORDER BY 3, 1 LIMIT 5; 
下 面 的 查询 列 出 了 跳 过 前 30 行 之 后 的 5 行 。 
ORDER BY 3, 1 LIMIT 30, 5; 


如 何 排序 NULL 值 ? Null 值 可 以 放 在 开始 或 最 后 ， 也 可 以 排 在 有 值 的 列 的 前 面 或 后 面 。 
空 值 放 在 哪里 由 SQL 的 实现 所 决定 。 


6.6.12 ”结果 分 类 : GROUP BY 子 铝 


当 使 用 聚集 函数 (如 SUM 或 COUNT) 时 ，GROUP BY 子 句 非常 有 用 。GROUP BY 可 
以 将 表 分 成 (通过 分 组 ) 多 个 子 集合 ; 然后 使 用 聚集 函数 为 分 组 提供 汇总 信息 。 之 前 的 聚集 
函数 例子 中 ， 返 回 的 单 值 称 为 标量 聚集 ( scalar aggregate)。 当 GROUP BY 子 句 中 使 用 聚集 
函数 时 ， 返 回 的 多 个 值 称 为 矢量 聚集 (vector aggregate ) 。 

220 查询 : 计算 我 们 送 贷 的 每 个 州 的 客户 数 。 


SELECT CustomerState, COUNT (CustomerState) 
FROM Customer T 
GROUP BY CustomerState:; 


结果 : 


CUSTOMERSTATE COUNT(CUSTOMERSTATE) 
CA 2 
CO 1 
FL 3 
HI 1 
MI 1 
NJ 2 
NY 1 
PA 1 
TX 1 
UT 1 
WA 1 
11 rows selected. 


也 可 以 在 组 内 再 嵌入 分 组 ， 这 和 多 条 目 排 序 的 逻辑 相同 。 
查询 : 计算 我 们 送 货 的 每 个 城市 的 客户 数 。 按 州 列 出 城市 。 


SELECT CustomerState, CustomerCity, COUNT (CustomerCity) 
FROM Customer_T 
GROUP BY CustomerState, CustomerCity; 
尽管 GROUP BY 子 句 看 起 来 非常 直接 ,但 是 如 果 忘 记 了 子 句 的 逻辑 ， 将 会 产生 意 想 
不 到 的 结果 (这 对 于 SQL 编程 初学 者 来 说 很 常见 )。 当 使 用 GROUP BY 子 名 时， 人 允许 在 
SELECT 子 句 中 指定 的 列 是 有 限制 的 ， 只 有 每 个 组 上 是 单 值 的 列 才 会 被 包括 进来 。 在 之 前 
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的 查询 中 ， 每 个 组 由 客户 所 在 城市 和 所 在 州 共同 标识 ，SELECT 语句 同时 包含 城市 列 和 州 
列 。 这 是 有 效 的 ， 因 为 每 个 城市 和 州 的 组 合 是 一 个 COUNT 值 。 但 是 如 果 本 节 第 一 个 查询 的 
SELECT 子 句 也 包含 城市 ， 则 查询 语句 将 会 失败 ， 因 为 GROUP BY 只 通过 州 分 组 。 一 个 州 
有 多 个 城市 ， 这 不 满足 SELECT 子 句 中 的 每 个 值 在 GROUP BY 组 中 只 有 一 个 值 的 要 求 ， 并 
且 SQL 也 不 能 显示 城市 信息 ， 因 此 是 毫 无 意义 的 。 如 果 使 用 以 下 规则 编写 查询 语句 ， 你 的 
查询 会 是 有 效 的 : SELECT 语句 中 所 引用 的 每 个 列 必须 在 GROUP BY 子 句 中 被 引用 ， 除 非 
该 列 是 SELECT 语句 中 聚集 函数 的 一 个 参数 。 


6.6.13 ”限制 分 类 结果 : HAVING 子 名 


HAVING 子 句 的 作用 类 似 于 WHERE 子 句 ， 但 是 它 是 用 于 确定 满足 一 些 条 件 的 分 组 而 
不 是 行 。 因 此 ， 你 经 常会 看 到 HAVING 子 句 紧 跟着 GROUP BY 子 句 。 
查询 : 找 出 有 多 个 客户 的 州 。 


SELECT CustomerState, COUNT (CustomerState) 
FROM Customer T 
GROUP BY CustomerState 
HAVING COUNT (CustomerState) > 1; 


这 个 查询 返回 的 结果 去 除了 所 有 只 有 一 个 客户 的 州 (组 )。 请 记 住 ， 在 这 里 使 用 WHERE 
是 无 效 的 ， 因 为 WHERE 不 允许 聚集 。 另 外 ，WHERE 限定 的 是 行 集合 ， 而 HAVING 限定 的 
是 分 组 的 集合 。 和 WHERE 一 样 ，HAVING 的 限定 内 容 也 可 以 和 计算 比较 值 的 SELECT 语句 
的 结果 进行 比较 (只 有 一 个 值 的 集合 仍然 是 集合 )。 


结果 : 

CUSTOMERSTATE COUNT(CUSTOMERSTATE) 
CA 2 
FL 3 
NJ 2 


为 了 在 HAVING 子 句 中 包含 多 个 条 件 ， 可 以 像 在 WHERE 子 句 中 一 样 使 用 AND、OR 
和 NOT。 归 纳 起 来 ， 下 面 给 出 一 条 包含 所 有 6 个 子 句 的 命令 ; 请 记 住 ， 这 6 条 子 句 必须 按 
照 以 下 顺序 。 


查询 : 对 于 给 定 的 材质 ， 按 字母 序列 出 材质 平均 标准 价格 低 于 750 美元 的 产品 材质 及 其 
平均 标准 价格 。 


SELECT ProductFinish, AVG (ProductStandardPrice) 
FROM Product T 
WHERE ProductFinish IN (Cherry ‘Natural Ash’, ‘Natural Maple'， 
‘White Ash ') 
GROUP BY ProductFinish 
HAVING AVG (ProductStandardPrice) < 750 
ORDER BY ProductFinish:; 


结果 : 

PRODUCTFINISH AVG(PRODUCTSTANDARDPRICE) 
Cherry 250 
Natural Ash 458.333333 


Natural Maple 650 
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图 6-9 显示 了 SQL 处 理 一 个 查询 语句 的 子 句 的 顺序 ， 箭 头 表 示 了 路 径 。 请 记 住 ， 只 有 
SELECT 和 FROM 子 句 是 必须 要 有 的 。 注 意 ， 子 句 处 理 的 顺序 与 创建 整个 查询 语句 的 语法 
顺序 不 同 。 每 条 子 句 的 处 理 过 程 中 会 产生 中 间 表 ， 用 于 下 一 个 查询 子 名 。 用 户 只 能 看 到 最 终 
的 结果 表 ， 而 看 不 见 中 间 结 果 表 。 记 住 图 6-9 的 执行 顺序 就 可 以 对 查询 进行 调试 。 调 试 时 拿 
走 可 选 子 句 ， 然 后 按照 它们 被 处 理 的 顺序 放 回 。 用 这 种 方法 ， 可 以 看 到 中 间 表 及 发 现 可 能 的 


问题 。 
FROM 
确定 所 涉及 的 表 
WHERE 
发 现 所 有 满足 条 件 的 行 
GROUP BY 
根据 列 中 的 值 来 组 织 行 
HAVING 
发 现 所 有 满足 条 件 的 组 
SELECT 
确定 列 
ORDER BY 
对 行进 行 排序 


结果 

























图 6-9 ”SQL 语句 处 理 顺序 (基于 van der Lans，2006，Pp.100 ) 


6.6.14 ”使 用 和 定义 视图 


图 6-6 中 的 SQL 语法 演示 了 使 用 Oracle 11g 数据 库 模 式 中 四 种 基本 表 的 创建 。 这 些 用 
于 物理 地 存储 数据 库 数据 的 表 与 逻辑 数据 库 设计 的 关系 相 一致 。 对 于 任何 RDBMS ， 通 过 
使 用 SQL 查询 ， 可 以 创建 虚 表 ( virtual table) 或 动态 视图 ( dynamic view)， 它 们 的 内 容 在 
引用 时 被 填 入 。 这 些 视图 操作 的 方式 常常 与 基本 表 相同 ， 也 是 通过 SQL 的 SELECT 查询 
语句 。 

视图 通常 被 认为 是 为 了 简化 查询 命令 ， 但 是 它 也 可 以 提高 数据 安全 性 、 显 著 提高 程序 
一 臻 和 数据 库 的 工作 效率 。 为 了 进一步 强调 视图 的 作用 ， 让 我 们 来 看 Pine Valley 公司 发 
货 单 的 处 理 过 程 。 构 造 该 公司 的 发 货 单 需要 访问 图 6-3 中 的 Pine Valley 数据 库 的 四 张 表 : 
Customer T，Order T，OrderLine_ T 和 Product_T。 对 于 这 种 涉及 多 张 表 的 查询 ， 数 据 库 新 
手 用 户 很 容易 出 错 。 使 用 视图 可 以 把 这 种 关联 预定 义 为 单个 虚 表 ， 并 且 作 为 数据 库 的 一 部 
分 。 有 了 这 样 的 视图 ， 当 一 个 用 户 只 需 客 户 发 货 单数 据 时 ， 无 须 重 构 多 表 的 连接 来 产生 报告 
或 其 他 数据 子 集 。 表 6-4 总 结 了 使 用 视图 的 优点 和 缺点 。 
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视图 Invoice_V 是 一 个 SQL 查询 (SELECT...FROM...WHERE) 的 结果 。 如 果 这 个 查询 
不 再 选择 其 他 属性 ， 那 么 可 以 去 除 OrderedQuantity 之 后 的 逗号 。 这 个 例子 假设 你 会 为 查询 
添加 其 他 属性 。 


表 6-4 使 用 动态 视图 的 优点 和 缺点 

优点 缺点 
简化 查询 命令 每 次 使 用 视图 时 ， 都 会 有 重建 视图 的 处 理 时 间 
有 助 于 提供 数据 安全 性 和 一 致 性 可 以 或 不 可 以 直接 更 新 
提高 程序 员工 作 效率 
包含 大 部 分 当前 的 基本 表 数 据 
使 用 较 少 的 存储 空间 
为 用 户 提供 可 定制 的 视图 
建立 物理 数据 独立 性 


查询 : 为 客户 创建 一 个 发 货 单 需要 哪些 数据 元 素 ? 并 将 这 个 查询 保存 为 名 为 Invoice_V 
的 视图 。 


CREATE VIEW Invoice_V AS 
SELECT Customer_T.CustomerlD, CustomerAddress Order TorderiD， 
Product_ T.ProductlD,ProductstandardPrice， 
OrderedQuantity, and other columns as required 
FROM Customer T, Order T DrderLine T, Product T 
WHERE Customer_ TCustomerID = Order TCustomerlID 
AND Order _T.OrderlD = OrderLine_ TOrderD 
AND Product T.ProductlD = OrderLine_T.ProductlD; 


这 条 SELECT 子 句 指定 或 投影 了 视图 中 需要 包含 进来 的 数据 元 素 ( 列 )。FROM 子 句 列 
出 了 视图 创建 过 程 中 涉及 的 表 和 视图 。WHERE 子 句 指定 了 用 于 连接 Customer_T、QOrder_T、 
OrderLine_T 和 Product_T 这 四 张 表 的 公用 列 名 (在 第 7 章 中 你 会 学 到 连接 操作 ， 但 现在 请 
记 住 用 于 引用 其 他 表 的 外 键 ， 这 些 也 是 被 用 来 执行 连接 操作 的 列 )。 因 为 视图 是 表 ， 并 且 表 
的 其 中 一 项 关系 属性 是 行 的 顺序 无 关 紧 要 ， 因 此 视图 中 的 行 可 能 不 会 被 排序 。 但 是 引用 该 视 
图 的 查询 可 以 以 任何 需要 的 顺序 来 显示 结果 。 

下 面 的 例子 构建 了 一 个 查询 ， 为 1004 号 客户 产生 发 货 单 ， 这 个 例子 展示 了 视图 的 功能 。 
我 们 可 以 从 视图 表 Invoice_V 包含 进 所 有 相关 数据 元 素 ， 而 无 须 指 定 这 四 张 表 的 连接 。 

查询 : 为 订单 号 1004 的 订单 创建 发 货 单 需要 哪些 数据 元 素 ? 

SELECT CustomerlD, CustomerAddress, ProductlD， 

OrderedQuantity, and other columns as required 
FROM Invoice_V 
WHERE OrderlD = 1004; 

动态 视图 是 虚 表 ; 它 是 随 需 要 由 DBMS 自动 创建 ， 并 且 它 不 是 作为 永久 数据 被 维护 。 
任何 SQL SELECT 语句 都 可 以 用 于 创建 视图 。 永 久 数据 被 存储 在 基本 表 里 ， 也 就 是 那些 由 
CREATE TABLE 命令 创建 的 表 。 动态 视图 总 是 包含 当前 最 新 的 导出 值 ， 因 此 ， 与 从 多 个 基 
本 表 创 建 临 时 表 相 比 ， 在 数据 流动 性 上 具有 很 大 优势 。 另 外 ， 与 临时 表 相 比 ， 视 图 花费 很 小 
的 存储 空间 。 然 而 ， 由 于 每 次 被 请 求 ( 即 每 次 视图 在 SQL 语句 中 使 用 ) 时 视图 的 内 容 都 必须 
要 计算 ， 所 以 视图 的 代价 很 高 。 [224 

视图 可 以 与 多 个 表 或 视图 连接 ， 并 且 可 以 包含 导出 列 (或 虚 列 )。 比 如 ， 如 果 Pine Valley 
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家 具 公司 数据 库 的 某 一 用 户 只 想 知道 每 件 家 具 产 品 的 订单 的 总 额 ， 则 可 以 从 Invoice_V 视图 
创建 一 个 视图 。 下 面 SQL*Plus 中 的 例子 说 明了 这 一 问题 如 何 用 Oracle 实现 ， 任 何 支 持 视 图 
的 RDBNS 也 可 以 完成 该 项 操作 。 

查询 : 每 件 家 居 产 品 订单 的 总 额 是 多 少 ? 


CREATE VIEW OrderTotals V AS 
SELECT ProductID Product, SUM (ProductStandardPrice*OrderedQuantity) 
Total 
FROM Invoice_V 
GROUP BY Product1D; 


我 们 可 以 为 视图 列 赋 予 不 同 的 名 字 (别名 )， 而 不 是 使 用 相关 基本 表 或 表达 式 的 列 名 。 
这 里 ，Product 是 ProductID 的 重 命 名 ， 只 在 该 视图 中 有 效 。Total 是 每 件 产品 总 销售 额 表 
达 式 的 列 名 。( 在 有 些 关系 型 DBMS 中 ，Total 可 能 会 是 一 个 不 合法 的 别名 ， 因 为 它 可 能 是 
DBMS 私有 因数 的 保留 字 ; 当 和 定义 列 名 和 别名 时 ， 必 须要 注意 不 要 使 用 保留 字 ) 在 随后 的 查 
询 中 ， 该 表达 式 可 以 通过 该 视图 作为 数据 列 而 非 导 出 表达 式 被 引用 。 基 于 其 他 视图 而 定义 的 
视图 会 引起 一 些 问 题 。 比 如 ， 重 新 定义 视图 Invoice _V， 使 其 不 再 包含 StandardPrice 列 ， 那 
么 OrderTotals_V 将 不 再 有 效 ， 因 为 它 将 不 能 找到 标准 单位 价格 。 

视图 还 有 助 于 建立 安全 性 。 没 有 包含 在 视图 中 的 表 和 列 对 视图 的 用 户 是 不 可 见 的 。 使 用 
GRANT 和 REVOKE 语句 限制 对 视图 的 访问 也 增加 了 男 一 层 安全 性 。 比 如 ， 对 于 一 些 用 户 ， 
赋予 他 们 在 视图 中 对 聚集 数据 (比如 averages 困 数 ) 的 访问 权限 ,但 是 拒绝 他 们 对 具体 的 基 
本 表 数 据 的 访问 ， 这 样 他 们 就 无 法 显示 基本 表 的 数据 。 

通过 创建 视图 来 限制 用 户 只 能 使 用 其 完成 本 职工 作 所 需 的 数据 ， 可 以 保证 数据 的 私有 性 
和 机 密 性 。 如 果 一 个 办 公 室 工作 人 员 需 要 使 用 员工 的 地 址 数据 ,但 是 不 被 允许 使 用 员工 的 赔 
途 金 率 数 据 ， 那 么 可 以 让 他 们 访问 一 个 不 包含 赔偿 金 信息 的 视图 。 


总 结 


本 章 介 绍 了 如 下 关系 数据 库 的 SQL 语言 : 数据 库 定义 语言 DDL、 数 据 库 操作 语言 DML 
和 数据 库 控 制 语言 DCL， 它 们 经 常用 于 关系 数据 库 管理 系统 的 定义 和 查询 操作 。 该 标准 由 
于 具有 的 一 些 缺 点 而 受到 批评 。 针 对 这 些 批评 和 为 进一步 增强 该 语言 的 功能 ，ANSI X3H2 
委员 会 和 信息 技术 标准 国际 委员 会 INCITS 对 其 进行 了 扩展 。 当 前 通用 的 SQL 标准 是 
SQL:1999， 而 且 SQL:2008 标准 也 正 被 一 些 RDBMS 所 实现 。 

SQL 标准 的 建立 和 一 致 性 证 明 测试 使 得 关系 数据 库 成 为 新 数据 库 开 发 的 主要 形式 。SQL 
标准 的 优势 包括 : 减少 了 培训 成 本 、 提 高 了 生产 率 、 应 用 的 可 移植 性 和 寿命 、 减 少 对 单 厂商 
的 依赖 以 及 改进 了 跨 系 统 通 信 。 

SQL 环境 包括 SQL DBMS 的 实例 、 可 访问 的 数据 库 、 相 关 用 户 和 程序 。 每 个 数据 库 都 
包含 在 一 个 目录 中 ， 并且 有 一 个 描述 数据 库 对 象 的 数据 库 模式 。 目 录 中 包含 的 信息 由 DBMS 
本 身 所 维护 ， 而 不 需 DBMS 的 用 户 来 维护 。 

SQL DDL 命令 用 于 定义 数据 库 ， 包 括 数据 库 的 创建 、 表 的 创建 、 索 引 的 创建 和 视图 的 
创建 。 参 照 完整 性 也 是 通过 DDL 命令 创建 。SQL DML 命令 用 于 载 人 、 更 新 和 查询 数据 库 ， 
使 用 的 是 SELECT 语句 。DCL 命令 用 于 控制 用 户 对 数据 库 的 访问 。 

SQL 命令 可 以 直接 影响 由 原始 数据 组 成 的 基本 表 或 已 经 创建 的 数据 库 视图 。 对 于 视图 
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的 修改 和 更 新 可 能 会 影响 基本 表 ， 也 可 能 不 会 。SQL SELECT 语句 的 基本 语法 包括 以 下 关键 
字 : SELECT、FROM、WHERE、ORDER BY、GROUP BY 和 HAVING。 其 中 ，SELECT 
语句 决定 了 在 查询 结果 表 中 将 会 显示 哪些 属性 ; FROM 决定 了 查询 要 用 到 哪些 表 和 视图 ; 
WHERE 为 查询 设 定 了 条 件 ， 包括 需 要 的 多 个 表 之 间 的 任意 连接 ; ORDER BY 决定 了 结果 将 
会 按照 什么 顺序 被 显示 ; GROUP BY 用 来 对 结果 进行 分 类 ， 并 返回 标量 聚集 或 者 矢量 聚集 ; 
HAVING 通过 分 类 限制 输出 结果 。 


理解 了 本 章 中 的 基本 SQL 语法 ， 读 者 能 够 有 效 地 使 用 SQL， 并 且 通 过 继续 的 练习 ， 可 


以 对 更 复杂 的 查询 有 更 深入 的 理解 。 第 7 章 中 将 会 介绍 高 级 SQL。 


关键 术语 
Base table (基本 表 ) Dynamic view (动态 视图 ) 
Catalog (目录 ) Relational DBMS (RDBMS， 关系 DBMS) 


Data control language (DCL， 数 据 控制 语言 

Data definition language (DDL， 数 据 定义 语言 ) 
Data manipulation language (DML， 数 据 操 作 语 言 
Virtual table ( 虚 表 ) 





Scalar aggregate (标量 聚集 ) 
Schema (模式 ) 
Vector aggregate(〈( 矢 量 聚 集 ) 


复习 题 
1， 和 定义 以 下 术语 
a. 基本 表 b. 数据 定义 语言 c. 数据 操作 语言 d. 动态 视图 
e. 参照 完整 性 约束 f 关系 DBMS (RDBMS) 
g. 模式 h. 虚 表 
2. 将 下 列 术 语 和 合适 的 定义 相 匹 配 : 
视图 a. 值 的 列表 
参照 完整 性 约束 b. 数据 库 的 描述 
动态 视图 c. 逻辑 表 
SQL:2008 d. 没有 或 不 存在 的 值 
空 值 e. 数据 库 的 数据 库 对 象 的 描述 
标量 聚集 f. 黄 入 SQL 命令 的 编程 语言 
矢量 聚集 g. 使 用 外 键 建 立 的 关系 数据 模型 
目录 h. 像 表 一 样 的 视图 
模式 i. 当前 提出 的 标准 关系 查询 和 定义 语言 
主语 膏 j. 单个 值 
3. 比较 如 下 术语 : 
a. 基本 表 ; 视图 b. 目录 ; 模式 
4. 描述 关系 DBMS (RDBMS )， 包 括 它 的 基础 数据 模型 、 数 据 存储 结构 及 其 数据 联系 是 如 何 建立 的 。 
$. 列 出 建立 一 个 被 广泛 接受 的 SQL 标准 的 6 个 好 处 。 
6. 描述 典型 的 SQL 环境 的 组 成 和 结构 。 
7. 区 分 数据 定义 命令 、 数 据 操作 命令 和 数据 控制 命令 。 
8.， 阐述 创建 SQL 视图 的 一 些 目的 ， 并 解释 视图 如 何 能 提高 数据 安全 性 。 
9. 解释 为 什么 当 通 过 视图 引用 数据 时 ， 有 必要 对 这 些 数 据 上 的 更 新 操作 进行 限制 。 
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描述 为 什么 使 用 视图 可 以 节省 再 编程 工作 。 
. 复习 前 面 所 学 内 容 ， 解 释 当 决定 是 否 为 某 表 用 SQL 创建 关键 字 索 引 时 ， 需 要 考虑 哪些 因素 。 
， 至少 给 出 一 个 例子 解释 如 何 具备 SQL 表 的 所 有 者 资格 。 如 何 使 一 个 用 户 可 以 使 用 另 一 个 用 户 所 拥 


有 的 表 ? 


. 如何 改变 结果 表 中 属性 的 顺序 ? 如 何 改变 结果 表 中 的 列 名 ? 


SQL 中 的 COUNT、COUNT DISTINCT 和 COUNT (*) 有 什么 区 别 ? 什么 情况 下 这 三 种 命令 会 产 
生 相 同 或 不 同 的 结果 ? 


.SQL 命令 中 的 布尔 运算 符 (AND、OR 和 NOT) 的 运算 顺序 是 什么 ”如 何 能 使 运算 符 以 期 望 的 顺 


序 而 非 规 定 的 顺序 执行 ? 


.如 果 SQL 语句 含有 GROUP BY 子 句 ， 那 么 SELECT 语句 中 要 求 的 属性 将 会 受到 限制 。 请 解释 这 


种 限制 。 


. 描述 一 个 需要 使 用 HAVING 子 句 的 查询 的 场景 。 
.IN 运算 符 用 在 SELECT 语句 的 哪个 子 句 中 ? IN 运算 符 之 后 是 什么 ? SQL 中 什么 运算 符 可 以 执行 


和 IN 一 样 的 操作 ? 在 什么 情况 下 使 用 该 运算 符 ? 


. 解释 为 什么 称 SQL 是 面向 集合 的 语言 。 


CREATE TABLE 命令 中 什么 时 候 使 用 LIKE 关键 字 是 有 帮助 的 ? 


. 什么 是 标识 列 ? 解释 SQL 中 使 用 标识 列 的 好 处 。 

.SQL 语句 中 的 子 句 是 按照 什么 顺序 执行 的 ? 

.SQL 语句 的 哪些 子 句 中 可 以 定义 导出 表 ? 

. 在 ORDER BY 子 句 中 ， 有 哪 两 种 方法 可 以 引用 查询 结果 排序 的 列 ? 

.解释 CREATE TABLE SQL 命令 中 使 用 CHECK 子 句 的 目的 。 解 释 CREATE VIEW SQL 命令 中 使 


用 WITH CHECK OPTION 的 目的 。 


. 使 用 ALTER SQL 命令 可 以 改变 表 定 义 的 哪些 内 容 ? 使 用 ALTER 命令 不 能 改变 表 定 义 的 哪些 


内 容 ? 
同一 个 SELECT 语句 中 ， 可 以 同时 使 用 WHERE 和 HAVING 子 句 吗 ? 如 果 可 以 ， 这 两 个 子 句 分 
别 用 来 实现 哪些 目的 ? 


问题 与 练习 


问题 与 练习 1 一 9 是 基于 图 6-10 中 的 课程 安排 3NF 关系 及 一 些 样本 数据 。 这 个 图 中 没有 显示 
的 是 ASSIGNMENT 关系 的 数据 ， 它 表示 了 教师 和 班级 之 间 的 多 对 多 关系 。 


. 使 用 SQL 的 DDL 命令 为 下 面 所 示 的 每 个 关系 写 出 数据 库 描述 语句 (根据 你 所 用 的 SQL 版 本 ， 可 


以 缩短 、 缩 写 或 改变 任何 数据 名 称 )。 假 设 以 下 是 属性 的 数据 类 型 : 
StudentID ( 整 型 ， 主 键 ) 

StudentName ( 25 个 字符 ) 

FacultyID ( 整 型 ， 主 键 ) 

FacultyName ( 25 个 字符 ) 

CourseID ( 8 个 字符 ， 主 键 ) 

CourseName ( 15 个 字符 ) 

DateQualified (日 期 类 型 ) 

SectionNo ( 整 型 ， 主 键 ) 

Semester ( 7 个 字符 ) 
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STUDENT (StudentID, StudentName) QUALIFIED (FacultyID, CourselD, DateQualified) 


StudentlD FacultyID CourselD DateQualified 


Letersky ISM 3112 9/1988 
Altvater ISM 3113 
Aiken ISM 4212 
Marra ISM 4930 


ISM 3113 
ISM 3112 





ISM 3113 
ISM 3113 
ISM 4212 
ISM 4930 


FacultyiD FacultyName 











COURSE (CourselD, CourseName) 


ISM 3113 Syst Analysis 
ISM 3112 Syst Design 


ISM 4212 | Database 
ISM 4930 | Networking 





图 6-10 ”班级 课程 安排 关系 


. 使 用 SQL 定义 下 面 的 视图 : 
studentiD StudentName 
38214 Letersky 
54907 Altvater 
54907 Altvater 
66324 Aiken 


. 由 于 参照 完整 性 ， 在 向 SECTION 表 插 人 任意 行 之 前 ， 输 入 的 CourseID 必须 已 经 存在 于 表 
COURSE 中 。 写 出 一 个 执行 此 SQL 约束 的 断言 。 

.为 以 下 操作 写 出 SQL 数据 定义 命令 : 
a. 如 何 向 Student 表 添 加 属性 Class ? 

b. 如 何 移 除 表 Registration ? 

c. 如 何 将 FacultyName 字段 由 25 字符 改 为 40 字符 ? 

， 为 以 下 操作 写 出 SQL 命令 : 
a. 写 出 两 个 不 同形 式 的 INSERT 命令 ， 用 于 向 Student 表 添加 一 个 StudentID 为 65798 且 姓 为 
Lopez 的 学 生 。 

b. 写 出 一 个 命令 , 将 Lopez 从 Student 表 中 删除 。 

c, 创建 一 个 SQL 命令 ， 将 课程 ISM 4212 的 名 称 由 Database 修改 为 To Introduction to Relational 
Databases。 

. 写 出 SQL 查询 来 回答 以 下 问题 : 

a. 哪些 学 生 的 ID 号 小 于 50000 ? 


20. 
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b. ID 为 4756 的 教师 的 姓名 是 什么 ? 
c. 2008 的 首 个 学 期 中 最 小 的 班级 号 是 什么 ? 


. 写 出 SQL 查询 来 回答 以 下 问题 : 


a. 2008 的 首 个 学 期 中 ， 班 级 2714 共 招 进 了 多 少 名 学 生 ? 
b. 哪些 教师 自 1993 年 起 限定 只 教 一 门 课程 ? 列 出 该 教师 的 编号 、 课 程 和 限定 日 期 。 


， 写 出 SQL 查询 来 回答 以 下 问题 ; 


a. 哪些 学 生 选 了 Database 和 Networking ? (提示 : 使 用 SectionNo， 这 样 就 可 以 确定 Registration 表 
中 的 结果 。) 

b. 哪些 教师 不 能 同时 教 Syst Analysis 和 Syst Design 课程 ? 

c. 哪些 课程 在 2008 上 学 期 开设 却 没 有 在 下 学 期 开设 ? 


. 写 出 SQL 查询 来 回答 以 下 问题 : 


a. Section 表 中 包含 哪些 课程 ? 列 出 这 些 课程 旦 每 个 课程 只 许 列 出 一 次 。 
b. 按 StudentName 的 字母 序列 出 所 有 学 生 。 
c. 列 出 注册 了 2008 第 一 学 期 所 有 课程 的 学 生 ， 由 所 注册 的 班级 对 这 些 学 生 分 组 。 
d. 列 出 所 有 可 选课 程 。 以 课程 ID 的 前 组 对 它们 进行 分 组 (ISM 是 显示 的 唯一 前 级 ,但 是 还 有 许多 
其 他 前 级 )。 

问题 与 练习 10 一 15 是 基于 图 6-11 中 所 示 的 关系 。 这 个 数据 库 所 描述 的 是 成 人 教育 项 目 。 老 
师 完 成 机 构 所 提供 的 课程 ， 学 生 完 成 评估 面试 ， 最 后 产生 老师 的 报告 和 阅读 分 数 。 当 一 位 老师 与 学 
生 匹 配 后 ,老师 每 周 见 学 生 一 次 ， 每 次 4 个 小 时 。 有 的 学 生 多 年 来 都 是 跟随 同一 位 老师 ， 也 有 的 学 
生 跟 随 一 位 老师 的 时 间 小 于 1 个 月 。 如 果 感 觉 老 师 的 教学 风格 不 适合 自己 的 学 习 方 式 ， 学 生 可 以 
选择 更 改 老师 。 许 多 老师 已 经 退休 了 ， 只 在 那 学 年 的 一 部 分 时 间 代 课 。 老 师 的 状态 可 以 是 Active、 
Temp Stop 或 Dropped。 


.有 多 少 状 态 为 Temp Stop 的 老师 ? 哪些 老师 是 Active 的 ? 
. 没 教 过 一 个 学 生 的 老师 的 TutorID 是 什么 ? 

. 在 一 年 里 的 前 五 个 月 中 ,成功 找 到 老师 的 学 生 有 和 多少? 

.哪个 学 生 有 最 高 的 阅读 分 数 ? 

.每 个 学 生 在 成 人 读 写 项 目 中 的 学 习 时 间 是 多 久 ? 

.在 这 一 项 目 中 ， 学生 在 此 学 习 的 平均 时 间 是 多 久 ? 


问题 与 练习 16 一 43 是 基于 整个 Pine Valley 家 具 公 司 数 据 库 的 。 注 意 : 根据 你 所 使 用 的 
DBMS， 有 些 字 段 名 可 能 需要 改变 ， 以 免 使 用 到 DBMS 里 的 保留 字 。 当 第 一 次 使 用 该 DBMS 时 ， 
检查 表 定 义 来 为 DBMS 选择 正确 的 字段 名 。 数 据 可 在 www.teradatauniversitynetwork.com 得 到 。 


.通过 添加 QtyOnHand 属性 来 修改 Product_T 表 ， 该 属性 可 用 来 追踪 已 完成 产品 的 库存 。 该 属性 字 


段 是 有 5 个 字符 的 整 型 字段 ， 并 且 只 接收 正 数 。 


. 为 Product T 表 的 QtyOnHand 属性 输入 你 自己 选择 的 样本 数据 ， 通 过 把 一 项 产品 的 库存 修改 为 


10 000 来 测试 你 对 问题 与 练习 16 所 完成 的 修改 。 再 通过 修改 库存 为 -10 来 进行 测试 。 如 果 你 成 
功 地 进行 了 这 些 修改 而 没有 出 现 错误 信息 ， 则 你 没有 在 问题 与 练习 16 中 建立 正确 的 约束 。 


.向 Order_T 表 添 加 一 个 订单 ， 该 订单 的 每 个 属性 都 有 一 个 值 。 


a. 首先 ， 查 看 表 Customer_T 的 数据 ， 并 且 从 中 选择 一 客户 为 其 输入 一 个 订单 。 
b. 输入 一 个 新 客户 的 订单 。 除 非 你 已 经 在 Customer_T 表 中 插入 了 该 新 客户 的 信息 ， 否 则 这 条 输 
人 语句 会 被 拒绝 。 参 照 完整 性 约束 会 阻止 你 插入 一 条 客户 信息 不 存在 的 订单 。 


.使 用 Pine Valley 数据 库 回 答 以 下 问题 : 


a. Pine Valley 有 多 少 工作 中 心 ? 
b. 这 些 工作 中 心 位 于 哪里 ? 
列 出 姓 以 开头 的 员工 。 


wl. 
A 
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哪些 员工 是 在 1999 年 被 雇用 的 ? 
列 出 居住 在 California 或 Washington 的 客户 。 将 他 们 按 邮 编 由 高 到 低 的 顺序 排序 。 9 


23. 列 出 所 有 巾 樱桃 木 做 成 的 原材料 ， 并 且 这 些 材料 的 规格 〈《 厚 和 宽 ) 为 12*12。 228 


24. 


2 
20 . 


a 
4 搞 
29. 


30. 
21, 
3 
33. 


TUTOR (TutorlD, CertDate, Status) STUDENT (StudentlD, Read) 


Ta | Corpats | seus | 
00 | Vosiaoo8 | Actve | > 
| tos/a008 | Temp Stop| 
oz | 52008 | propped | 
0 | sa22008 | Acive | 
ro 
1 























100 

101 

102 

103 

区 

ea 于 


MATCH HISTORY (MatchlD, TutorID, StudentID, 
StartDate, EndDate) 


MatchID TutorID StudentiD StartDate EndDate 


| | 


2 3001 | 1/15/2008 5/15/2008 
3 3002 | 2/10/2008 3/01/2008 


| 
i 
ee 


3 
| 
| 1 
0 | | 
0 | 27 
0 | 8 
















3004 | 6/01/2008 6/15/2008 
3005 | 6/01/2008 6/28/2008 


四 
图 6-11 成 人 教育 项 目 (问题 10 一 15) 


列 出 所 有 由 机 桃木 、 松 树 或 胡桃 木 做 原材料 的 MaterialID 、MaterialName、Material 、MaterialStandard 
Price 和 Thickness。 按 照 Material 、MaterialStandardPrice 和 Thickness 对 结果 进行 排序 。 

显示 产品 线 ID 和 每 一 产品 线 中 所 有 产品 的 平均 标准 价格 。 

对 于 下 订单 的 产品 ， 列 出 产品 ID 和 总 数量 (将 该 结果 标记 为 TotalOrdered)。 列 出 最 受 欢迎 的 产 
品 和 最 不 受 欢 迎 的 产品 。 

对 于 每 个 客户 ， 列 出 CustomerID 和 总 的 订单 数 。 [229 
对 于 每 位 销售 人 人员， 显示 CustomerID 的 列表 。 

对 于 每 件 产品 ， 列 出 ProductID 和 订单 总 数 。 按 照 产品 被 下 订单 的 次 数 对 结果 进行 降序 排序 ， 并 
将 该 结果 列 标记 为 NumOrders。 

对 于 每 个 客户 ， 列 出 其 CustomerID 和 2010 年 下 的 总 订单 数 。 

列 出 每 位 销售 人 员 的 总 订单 数 。 

列 出 订单 数 多 于 两 个 的 客户 的 CustomerID 和 总 订单 数 。 

列 出 所 有 多 于 一 个 销售 人 员 的 销售 部 门 的 TerritoryID 。 


2Z22 


34. 
35. 


36, 


37. 


38. 


39. 


40. 


41. 


42. 


43. 


44. 
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哪个 产品 被 订购 得 最 为 频繁 ? 

对 于 有 多 于 一 个 销售 人 员 的 销售 部 门 ， 列 出 TerritoryID 和 销售 人 员 的 数目 。 结 果 中 将 销售 人 员 数 
目标 记 为 NumSalesPersons。 

列 出 除了 3、5、9 的 销售 人 员 的 SalesPersonID 和 其 接受 的 订单 数 。 编 写 该 查询 语句 时 ， 尽 量 使 用 
较 少 的 子 句 ， 尽 可 能 多 地 使 用 SQL 的 功能 。 

按 月 列 出 2010 年 每 位 销售 人 员 的 总 订单 数 (提示 : 如 果 你 使 用 的 是 Access， 可 以 用 Month 琐 数 ; 
如 果 使 用 的 是 Oracle， 则 把 日 期 类 型 ( data) 转 为 字符 串 (string) 类 型 ， 然 后 使 用 TO_CHAR 函 
数 ， 格 式 字 符 串 为 'Mon1 生 比如，TO_CHAR (order_date，'MON") ] ; 如 果 使 用 的 是 其 他 DBMS ， 
则 需要 研究 如 何 处 理 该 查询 的 月 份 )。 

对 于 不 是 机 桃木 或 橡树 并 且 宽 度 大 于 10 英 寸 的 原材料 ， 列 出 其 MaterialName、Material 和 
Width。 使 用 Venn 图 展示 你 构建 的 查询 。 

对 于 ProductStandardPrice 高 于 400 美元 的 橡树 产品 或 StandardPrice 低 于 300 美元 的 机 桃木 产品 ， 
列 出 其 ProductID 、ProductDescription 、ProductFinish 和 ProductStandardPrice。 使 用 Venn 图 展示 
你 构建 查询 的 过 程 。 

列 出 每 个 订单 的 订单 ID 、 客 户 ID 、 订 单 日 期 ， 并 列 出 所 有 订单 中 最 近 完 成 的 一 个 订单 日 期 。 使 
用 Venn 图 展示 构建 查询 的 过 程 。 

列 出 每 个 客户 的 客户 ID 、 订 单数 目 、 该 客户 的 订单 数目 与 所 有 客户 总 订单 数目 的 比值 。( 这 个 比 
值 也 就 是 每 个 客户 订单 占 总 订单 的 百分比 。) 

在 一 行 中 列 出 产品 1、2、7 的 单位 价格 ， 这 样 结果 有 三 列 ， 分 别 代 表 三 种 产品 的 单位 价格 ， 标 记 
为 Prodl 、Prod2 、Prod7。 

并 非 所 有 的 数据 库 版 本 对 外 键 都 有 参照 完整 性 约束 。 为 你 所 用 的 RDBMS 编写 可 用 的 命令 ， 研 究 
是 否 缺 少 参 照 完整 性 约束 。 写 出 缺少 的 约束 并 把 其 加 入 相关 的 表 定 义 中 。 

Tyler Richardson 在 搬入 Seattle 的 新 家 时 ， 建 立 了 一 套 住宅 警报 系统 。 为 了 安全 考虑 ， 他 将 自己 
的 所 有 邮件 (包括 他 的 警报 系统 清单 ) 发 送 到 本 地 UPS 存储 。 尽 管 这 个 警报 系统 是 可 工作 的 并 且 
公司 对 自己 的 物理 地 址 很 谨慎 ， 但 是 Richardson 接收 到 了 发 送 到 他 物理 地 址 的 多 个 重复 的 提议 邮 
件 ， 尽 求 他 使 用 当前 的 系统 保护 自己 的 住宅 。 你 认为 该 公司 的 数据 库 系统 可 能 出 现 了 什么 问题 ? 
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www.coderecipes.net 该 网 站 解释 了 大 量 SQL 命令 并 给 出 了 示例 。 

www.fluffycat.com/SQL/ 该 网 站 定义 了 样本 数据 库 ， 并 给 出 了 该 数据 库 上 的 SQL 查询 示例 。 

www.incits.org 国际 信息 技术 标准 委员 会 主页 ， 该 委员 会 的 前 身 是 曾 被 称 作 公认 标准 委员 会 X3 的 美 
国信 息 技术 标准 委员 会 。 

http://www.iso.org/iso/home.html 国际 标准 化 组 织 网 站 ， 现 行 标准 可 从 该 网 站 购买 。 

www.itl.nist.gov/div897/ctg/dm/sql_examples.htm ”该 网 站 给 出 了 使 用 SQL 命令 创建 表 和 视图 、 更 
新 表 内 容 及 执行 SQL 数据 库 管理 命令 的 示例 。 

www.java2s.com/Code/SQL/CatalogSQL.htm 该 网 站 提供 了 在 MySQL 环境 中 使 用 SQL 的 教程 。 

www.mysql.com MySQL 的 官方 主页 ， 包 含 了 很 多 可 以 在 MySQL 上 使 用 的 免费 下 载 组 件 。 

www.paragoncorporation.com/ArticleDetail.aspx?ArticlelD=27 该 网 站 提供 了 SQL 功能 的 简要 说 明 
及 很 多 SQL 查询 示例 。 

www.sqlcourse.com 与 www.sqlcourse2.com ”网 站 提供 了 ANSI SQL 子 集 的 教程 ,并 带 有 练习 数 
据 库 。 

www.teradatauniversitynetwork.com ”在 该 网 站 上 ， 教 师 已 经 为 你 创建 了 支持 Web 版 Teradata SQL 
助手 运行 的 一 些 课程 环境 ， 该 环境 中 带 有 本 书 中 Pine Velley 家 具 公 司 和 山 果 社区 医院 的 多 个 数 
据 集 。 

wwwtizag.com/sqlTutorial/ ”关于 SQL 概念 和 命令 的 教程 。 

www.wiscorp.com/SQLStandards.html Whitemarsh 信息 系统 有 限 公 司 的 网 站 ， 它 是 关于 包括 
SQL:2003 的 SQL 标准 及 标准 后 续 版 本 的 很 好 的 资源 。 
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学 习 目 标 

学 完 本 章 后， 读者 应 该 能 够 : 

e 准确 定义 以 下 关键 术语 : 连接 ， 等 值 连接 ， 上 自然 连接 ， 外 连接 ， 关 联 子 查询 ， 事 务 ， 

回 后 恢复 〈 回 滚 )， 触 发 器 ， 方 法 ， 过 程 ， 明 人 式 SQL ， 动 态 SQL。 

e 使 用 SQL 命令 写 单 表 和 多 表 查 询 。 

e 定义 三 种 类 型 的 连接 命令 并 会 用 SQL 写 这 些 命令 。 

e 能 写 无 关联 和 关联 子 查询 ， 并 知道 什么 时 候 使 用 这 些 子 查询 。 

e 理解 SQL 在 过 程 语 言 中 的 使 用 ， 包 括 标准 的 (如 PHP) 和 私有 的 (如 PL/SQL ) 。 

e 理解 数据 库 触 发 吉 和 存储 过 程 的 普遍 用 法 。 

引言 

前 一 章节 已 介绍 了 SQL， 并 探讨 了 其 单 表 查询 的 能 力 。 关 系 模型 的 真正 强大 之 处 在 于 
它 将 数据 存储 在 许多 关联 实体 中 。 利 用 这 种 方法 存储 数据 需要 建立 联系 和 构造 使 用 多 个 表 数 
据 的 查询 。 本 章 将 详细 介绍 多 表 查 询 。 使 用 不 同 的 方法 展示 来 自 多 个 表 中 得 到 的 数据 结果 ， 
包括 使 用 子 查询 、 内 连接 、 外 连接 和 联合 连接 。 

一 旦 理解 了 基本 SQL 语法 ， 理 解 在 应 用 创建 中 怎样 使 用 SQL 便 非 常 重要 。 触 发 器 是 包 
含 SQL 的 小 型 代码 模块 ， 当 触发 器 中 定义 的 条 件 成 立时 它 就 会 自动 执行 。 过 程 是 相似 的 代 
码 模 块 ， 但 是 必须 在 执行 之 前 调用 。SQL 命令 经 常 甬 人 到 用 其 他 主语 言 写 的 代码 模块 中 ， 例 
如 C、PHP、.NET 或 Java。 动 态 SQL 在 运行 中 创建 SQL 语句 ， 并 在 需要 时 插入 参数 值 ， 它 
在 Web 应 用 中 至 关 重 要 。 本 章 将 会 对 这 些 方法 作 简 单 介绍 并 举例 说 明 。Oracle 是 一 个 主要 
的 关系 数据 库 管 理 系 统 (RDBMS) 厂商 ， 遵 从 SQL:1999 标准 。 

本 章 的 结束 会 给 出 SQL 复习 以 及 它 使 用 的 一 些 方 式 。 一 些 在 特殊 情况 中 用 到 的 很 多 额 
外 特性 通常 在 更 详细 的 SQL 文档 中 “模糊 ” 提 到 。 练 习 本 章 所 提 到 的 语法 将 会 是 你 学 习 神 
秘 SQL 的 一 个 好 的 开始 。 


7.1 多 表 处 理 


我 们 已 经 探讨 了 单 表 处 理 的 一 些 方法 ， 现 在 该 是 拿 出 “ 光 剑 “喷气 机 ”和 “举重 工 
具 ” 来 完成 这 项 艰难 的 工作 的 时 候 了 : 同时 处 理 多 表 数 据 。 在 处 理 多 表 的 时 候 ，RDBMS 的 
能 力 将 会 展现 。 当 多 个 表 之 间 存 在 联系 时 ， 这 些 表 就 可 以 在 查询 中 连接 在 一 起 。 记 得 在 第 
4 章 中 ， 这 些 联 系 的 建立 是 通过 在 联系 需要 的 每 个 表 中 包含 公共 列 实现 。 联 系 经 常 是 通过 
设置 主键 - 外 键 联系 建立 的 ， 其 中 一 个 表 的 外 键 引用 另 一 个 表 的 主键 ， 并 且 它 们 的 值 来 目 
相同 的 域 。 可 以 通过 查找 这 些 列 的 共同 值 来 建立 两 个 表 间 的 连接 。 图 7-1 选择 了 图 6-3 的 两 
个 关系 ， 描 述 了 Pine Valley 家 具 公 司 的 部 分 数据 库 。 注 意 Order T 表 的 CustomerID 值 和 
Customer_T 表 的 CustomerID 值 对 应 。 使 用 这 种 对 应 可 以 推出 ，Contemporary Casuals 下 了 
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订单 1001 和 1010， 因 为 Contemporary Casuals 的 CustomerID 是 1， 并 且 从 Order T 表 看 
出 CustomerID 为 1 的 客户 下 了 OrderID 为 1001 和 1010 的 订单 。 在 关系 系统 中 ， 来 自 关联 
表 中 的 数据 被 合并 成 一 个 结果 表 或 者 视图 ， 然 后 直接 显示 或 者 作为 一 个 表格 或 报告 定义 的 
输入 。 


. A a a 
ordert ‘OrderDare | Custoinettd -NI TutomedD CusiomerAddresys ‘CustomerCity jCustomerSlaie !CustonierPostalCode 全 | 
,机 各 1001 10/21/2010 1 过 一 一 > 1 Contemporary Casuafs Cc1355 Hines Bjvd e ) 32601-2873 舌 - 
1072312010 于 a Ht 15145 S.W. 27th SS 15094-7743 
1003 32302272D10 5 + ' > Horne Furnmshir 1900 Mlard Ave BY i 12209-1125 
10/22/2010 5 > 1925 Beltiine Rd 
10/724/2010 34 EX 和 p> 5 Pressorns 5585 Westcott Ct 
19/24/20109 和 a Wri 325 Flatiton Or 
NW? 30/2772010 -人 ce 394 Rainbow D' 
10/30/2010 D> A 让 1 if5 216 Peach Rd, 
9 11/5/2010 44 and H Casun] Fire 3709 First Street learweter 34620-2314 
1010 41/5/2010 想 弱 , 10 Seminale Interiors 2400 Rocky Point Dr Seminole 34646-4423 
v 中 所 11 Apserican Fno Litestyley 2424 Missourl Ave N. Pros: 07508-5621 
, | rw E20 12. Battie Creek Fumiture 345 Capitol Ave. SW : 49015-3401 
56789 College Ve, Casie 17013-8834 
12 Kowai SL 0744-2537 
4132 Marm Street ' B4403-4432 








| 


图 7-1 Pine Valley 家 具 公 司 的 Customer_T 和 Order_T 表 ， 包括 从 客户 到 他 们 的 订单 的 箭头 

关联 表 的 连接 随 着 关系 系统 类 型 不 同 而 不 同 。 在 SQL 中 ，SELECT 命令 的 WHERE 了 于 
句 也 用 于 多 表 操 作 。 实 际 上 ，SELECT 可 以 在 同一 个 命令 中 同时 包括 2 个、3 个 或 者 更 多 表 
的 引用 。 如 下 将 描述 的 ，SQL 有 两 种 方式 使 用 SELECT 合并 关联 表 的 数据 。 

最 常用 的 关系 操作 是 将 两 个 或 多 个 关联 表 的 数据 放 到 一 个 结果 表 中 ， 称 为 连接 ( join)。 
最 初 ，SQL 通过 在 WHERE 子 句 中 引用 来 隐 式 地 说 明 连 接 ， 以 匹配 表 连 接 需 要 的 公共 列 。 
自 SQL-92 标准 后 ， 连 接 也 可 以 在 FROM 子 句 中 说 明 。 无 论 哪 种 情况 ， 当 每 个 表 都 有 一 列 
和 男 一 个 表 的 列 共享 一 个 共同 域 时 ， 这 两 个 表 就 可 以 连接 。 之 前 提 到 过 ， 一 个 表 的 主键 和 男 
一 个 表 中 引用 该 主键 的 外 键 将 共享 一 个 共同 域 ， 它 们 经 常用 来 建立 连接 。 有 时 使 用 共享 共同 
域 但 不 是 主键 - 外 键 联系 的 列 来 建立 连接 也 是 可 以 的 (例如 ， 可 能 根据 数据 库 的 数据 模型 中 
根本 不 存在 联系 的 共有 邮政 编码 来 将 客户 和 销售 员 连 接 起 来 )。 连 接 操作 的 结果 是 一 个 单 表 ， 
包括 从 所 有 表 中 选择 的 列 ， 返 回 的 每 一 行 包括 了 公共 列 的 值 匹配 的 不 同 输入 表 的 行 的 数据 。 

显 式 的 JOIN...ON 命令 包含 在 FROM 子 句 中 。 如 在 标准 库 中 包含 的 连接 操作 ， 而 每 个 
RDBMS 产品 只 支持 如 下 关键 字 的 一 个 子 集 : INNER、OUTER、FULL、LEFT、RIGHT、 
CROSS 和 UNION。 (下面 章节 将 会 解释 这 些 关 键 字 。) NATURAL 是 一 个 可 选 关 键 字 。 无 论 
你 使 用 哪 种 连接 ， 每 对 连接 的 表 都 应 该 有 一 个 ON 或 WHERE 说 明 。 因 此 ， 如 果 两 个 表 结 
合 ， 那 么 一 个 ON 或 WHERE 条 件 语 句 是 必要 的 , 但 是 如 果 有 三 个 表 (A、B 和 C) 结合 ， 
那么 两 个 ON 或 WHERE 条 件 语句 是 必需 的 ， 因 为 这 里 有 两 对 表 ( A-B 和 B-C)， 依 此 类 推 。 
大 多 数 系 统 都 支持 在 一 个 SQL 命令 中 最 多 10 对 表 的 连接 。 

下 面 将 介绍 不 同类 型 的 连接 操作 。 


7.1.1 等 值 连接 


等 值 连接 ( equal-join) 的 连接 条 件 是 基于 共同 列 的 值 相等 。 例 如 ， 如 果 想 知道 哪些 客户 
下 了 订单 ， 这 个 信息 保存 在 两 个 表 Customer T 和 Order_ T 中 。 必 须 使 用 他 们 的 订单 来 匹配 
客户 ， 然 后 收集 一 些 信 息 (例如 ， 客 户 的 名 字 和 订单 编号 ) 放 在 一 个 表 中 来 回答 这 个 问题 。 
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通过 查询 创建 的 表 称 作 结 果 或 答案 表 。 
查询 : 所 有 有 订单 的 客户 的 ID 和 名 字 以 及 他 们 的 订单 编号 是 哪些 ? 


SELECT Customer_T.CustomerlD, Order_T.CustomerID， 
CustomerName, OrderID 
FROM Customer T, Order T 
WHERE Customer TCustomerID = Order T. CustomerID 
ORDER BY OrderiD 


结果 : 
CUSTOMERID CUSTOMERID CUSTOMERNAME ORDERID 
1 1 Contemporary Casuals 1001 
8 8 California Classics 1002 
15 15 Mountain Scenes 1003 
5 5 Impressions 1004 
3 3 Home Furnishings 1005 
2 2 Value Furniture 1006 
11 11 American Euro 1007 
Lifestyles 
12 12 Battle Creek Furniture 1008 
4 4 Eastern Furniture 1009 
1 1 Contemporary Casuals 1010 


10 rows selected. 


来 自 两 个 表 的 元 余 CustomerID 列 证 明 客户 的 ID 被 匹配 并 且 该 匹配 给 出 了 所 下 订单 的 一 
行 。 给 CustomerID 列 添 加 各 自 的 表 名 作为 前 级， 这 样 SQL 知道 在 SELECT 列表 中 的 各 个 
元 素 引 用 的 是 哪个 CustomerID 列 ; 没有 必要 给 CustomerName 或 OrderID 添加 其 关联 表 名 
作为 前 级 ， 因 为 这 些 列 都 只 能 在 FROM 列表 中 的 一 个 表 中 找到 。 建 议 读 者 学 习 图 7-1 中 的 
10 个 箭头 对 应 的 查询 结果 中 的 10 行 。 并 且 ， 注 意 在 查询 结果 中 没有 没有 订单 的 客户 的 行 ， 
因为 在 Order_T 中 没有 这 些 CustomerID 的 匹配 。 

如 果 WHERE 子 句 被 去 掉 ， 可 以 看 到 表 之 间 匹 配 的 重要 性 。 这 时 查询 会 返回 所 有 客户 
和 订单 的 组 合 ， 或 150 行 ， 包 括 两 个 表 之 间 行 的 所 有 可 能 组 合 〈 也 就 是 说 ， 一 个 订单 会 与 每 
个 客户 相 匹配 ， 而 不 是 与 下 这 个 订单 的 客户 )。 这 种 情况 下 ， 连 接 没有 反映 两 个 表 之 间 存 在 
的 联系 ， 得 到 的 也 不 是 有 用 或 有 意义 的 结果 。 连 接 结 果 的 行 数 等 于 每 个 表 的 行 数 的 乘积 〈10 
个 订单 x 15 个 客户 = 150 行 )。 这 叫 作 稍 卡 儿 连 接 。 当 WHERE 子 句 中 多 个 条 件 的 某 个 连接 
部 分 丢失 或 者 错误 时 会 使 笛 卡 儿 连接 得 到 假 的 结果 。 只 在 极 少 的 情况 下 想 要 得 到 备 卡 儿 连 
接 的 结果 ， 这 时 去 掉 WHERE 子 句 中 的 配对 条 件 。( 在 你 确定 真正 想 要 的 时 候 使 用 这 个 查询 ， 
因为 在 产品 数据 库 上 的 一 个 交叉 连接 将 会 产生 成 百 上 千 行 并 且 消 耗 巨 大 的 计算 机 时 间 一 一 
足够 叫 一 个 比萨 快递 了 ! ) 

关键 词 INNER JOIN...ON 用 在 FROM 子 句 中 建立 等 值 连接 。 这 里 使 用 的 是 Microsoft 
Access SQL 语法 ， 在 其 他 一 些 系 统 (例如 Oracle 和 Microsoft SQL Server) 直接 使 用 没有 
INNER 的 JOIN 关键 词 建立 等 值 连接 : 

查询 : 所 有 有 订单 的 客户 的 ID 和 名 字 以 及 他 们 的 订单 编号 是 哪些 ? 
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SELECT Customer T.CustomerlD, Order_ TCustomerlD， 
CustomerName, OrderlD 
FROM Customer TINNER JOIN Order TON 
Customer T.CustomerID = Order T.CustomeriD 
ORDER BY OrderlID:; 


结果 : 与 之 前 的 查询 结果 相同 。 

如 果 你 使 用 的 RDBMS 支持 的 话 ， 最 简单 是 使 用 JOIN.…USING 语法 。 如 果 数 据 库 的 设 
计 者 事先 经 过 考虑 并 且 主 键 和 外 键 使 用 了 相同 的 列 名 称 ， 就 像 表 Customer T 和 Order_ T 中 
的 CustomerID 一 样 ， 就 可 以 使 用 下 面 的 查询 : 


SELECT Customer TCustomerlD, Order_T.CustomerlD, 
CustomerName, OrderlD 

FROM Customer_ TINNER JOIN Order _T USING CustomerlD 

ORDER BY OrderID ; 


注意 这 里 的 WHERE 子 句 只 是 发 挥 了 其 作为 过 滤器 作用 的 传统 角色 。 由 于 FROM 子 句 通 
常 先 于 WHERE 子 名 处理， 因此 一 些 用 户 选 择 在 FROM 子 句 中 使 用 ON 或 USING 的 新 语法 。 
剩 下 的 语句 只 要 处 理 满足 连接 条 件 的 更 小 的 记录 集 ， 这 样 可 能 会 提高 性 能 。 所 有 的 数据 库 管 
理 系 统 (DBMS ) 产品 都 支持 传统 方式 在 WHRER 子 句 中 定义 连接 。Microsoft SQL Server 支持 
INNER JOIN...ON 语法 ，Oracle 从 9 开始 支持 ，MySQL 从 版 本 3.23.17 开始 支持 。 

再 次 强调 ，SQL 是 面向 集合 的 语言 。 因 此 ， 这 个 连接 示例 是 通过 将 客户 表 和 订单 表 看 作 
两 个 集合 并 且 将 Customer_T 表 和 Order_T 表 中 有 相同 CustomerID 值 的 行 连接 在 一 起 产生 
的 。 这 是 一 个 集合 交集 操作 ， 就 是 从 匹配 的 行 中 选择 列 连接 在 一 起 。 图 7-2 使 用 集合 图 解 方 
式 展示 了 最 普通 的 双 表 连接 。 


阴影 区 是 返回 的 结果 ”从 外 表 返 回 的 所 有 记录 
从 连接 表 返 回 的 所 有 匹配 










返回 的 所 有 记录 


入 > Wh > 
全 ee 和 WA 





图 7-2 形象 化 显示 不 同 的 连接 类 型 ， 返 回 的 结果 以 阴影 区 域 显 示 


7.1.2 自然 连接 


自然 连接 ( natural join) 与 等 值 连接 类 似 ， 只 是 它 是 在 匹配 列 上 执行 ， 并 且 结 果 表 中 不 
存在 重复 的 列 。 自 然 连接 是 最 常用 的 连接 操作 。( 不 ,“ 自 然 ”连接 不 是 融 有 更 多 纤维 素 的 更 
健康 的 连接 ， 并 且 没 有 非 自 然 连接 ; 但 是 你 会 发 现 它 在 关系 数据 库 中 的 自然 性 和 至 关 重 要 
的 功能 。) 注意 下 面 命 令 中 的 CustomerID 仍然 要 被 限制 因为 它们 仍然 有 二 义 性 ; CustomerID 
在 Customer_T 和 Order_T 中 都 存在 ， 因 此 必须 明确 CustomerID 是 来 自 哪个 表 。 当 连接 在 
FROM 子 句 中 定义 时 ，NATURAL 是 一 个 可 选 关键 字 。 
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查询 : 对 每 个 下 订单 的 客户 ， 其 ID、 名 字 和 订单 号 是 什么 ? 


SELECT Customer T.CustomerlD, CustomerName, OrderlD 
FROM Customer_T NATURAL JOIN Order T ON 
Customer_T.CustomerlD = Order_T.CustomerlD: 


注意 在 FROM 子 句 中 表 名 的 顺序 无 关 紧 要 。DBMS 中 的 查询 优化 器 将 会 决定 处 理 每 个 
表 的 次 序 。 公 共 列 上 是 否 存 在 索引 也 会 影响 表 处 理 的 次 序 ， 就 如 在 1:M 联系 中 哪个 表 在 1、 
哪个 表 在 M 一 样 。 如 果 对 于 FROM 子 句 中 表 的 顺序 不 同 查询 耗费 不 同 的 时 间 ， 那 么 就 表示 
DBMS 没有 好 的 查询 优化 堪 。 


7.1.3 外 连接 


在 连接 两 个 表 时 ， 经 常会 发 现 一 个 表 的 行 在 另 一 个 表 中 没有 与 之 匹配 的 行 。 例 如 ， 一 
些 CustomerID 号 在 Order T 表 中 没有 出 现 。 在 图 7-1 中， 箭头 是 从 客户 指向 他 们 的 订单 。 
Contemporary Casuals 有 两 个 订 单 。Furniture Gallery 、Period Furniture 、M&H Casual 
Furniture 、Seminole Interiors 、Heritage Furnishings 和 Kaneohe Homes 在 这 个 简单 的 例子 中 
没有 订单 。 可 以 假设 这 是 因为 这 些 客户 从 2010 年 10 月 21 日 起 没有 下 订单 ， 或 者 他 们 的 订 
单 不 在 这 个 简短 的 Order T 表 中 。 因 而 ， 之 前 展示 的 等 值 连接 和 自然 连接 的 结果 并 不 包括 
Customer_T 中 的 所 有 客户 。 

当然 ， 企 业 可 能 会 对 找 出 没有 订单 的 客户 感 兴趣 。 它 可 能 是 想 联系 他 们 产生 新 的 订单 ， 
或 者 可 能 对 分 析 这 些 客户 为 什么 没有 下 订单 感 兴趣 。 使 用 外 连接 ( out join) 会 产生 这 些 信 
息 : 在 共有 列 中 没有 匹配 值 的 行 也 出 现在 结果 表 中 。 表 之 间 没 有 匹配 的 列 中 显示 空 值 。 

主流 RDBMS 厂商 都 可 以 处 理 外 连接 ,但 是 完成 外 连接 的 语法 随 着 厂商 不 同 而 不 同 。 这 
里 给 出 的 例子 使 用 ANSI 标准 语法 。 当 一 个 外 连接 无 法 显 式 使 用 时 ,使 用 UNION 和 NOT 
EXISTS (在 本 章 之 后 讨论 ) 执行 外 连接 。 下 面 是 一 个 外 连接 。 

查询 : 列 出 在 Customer 表 中 的 所 有 客户 名 、 客 户 ID 号 和 订单 号 ， 包 插 没 有 订单 的 客户 
的 客户 名 和 客户 ID 号 。 


SELECT Customer TCustomerID,， CustomerName, OrderID 
FROM Customer TLEFT OUTER JOIN Order T 
WHERE Customer T.CustomerlD = Order _T. CustomerID; 


选择 语法 LEFT OUTER JOIN 是 因为 Customer_T 表 第 一 个 被 列 出 ， 并 且 是 希望 无 论 在 
Order_T 表 中 是 否 有 匹配 的 订单 所 有 行 都 返回 的 表 。 如 果 逆 转 列 出 的 表 的 顺序 ， 要 得 到 相同 
的 结果 就 需要 使 用 RIGHT OUTER JOIN。 还 可 以 使 用 FULL OUTER JOIN。 在 这 种 情况 下 ， 
两 个 表 中 的 所 有 行 都 会 被 返回 和 匹配 ， 如 果 可 能 的 话 ， 包 括 任何 在 另 一 个 表 中 没有 匹配 的 
行 。INNER JOIN 比 OUTER JOIN 更 常用 ， 因 为 外 连接 只 在 用 户 需要 看 到 另 一 个 表 中 没有 匹 
配 的 行 的 行 数据 时 才 有 必要 。 

另外 ， 外 连接 的 结果 表 中 可 能 会 显示 NULL (或 一 个 符号 ， 例 如 ??) 作为 在 第 二 个 表 中 
没有 匹配 项 的 列 的 值 。 如 果 那 些 列 可 能 有 NULL 作为 数据 值 ， 那 么 你 不 知道 该 行 是 否 是 匹 
配 行 或 非 匹 配 行 ， 除 非 你 运行 另 一 个 查询 ， 检 查 基本 表 或 视图 中 的 空 值 。 同 样 ， 一 个 被 定义 
为 NOT NULL 的 列 也 可 能 在 OUTER JOIN 的 结果 表 中 被 分 配 一 个 NULL 值 。 在 如 下 结果 
中 ，NULL 值 显示 为 空白 值 (也 就 是 一 个 没有 订单 的 客户 的 OrderID 列 没有 值 )。 
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结果 : 
CUSTOMERID CUSTOMERNAME ORDERID 
1 Contemporary Casuals 1001 
1 Contemporary Casuals 1010 
2 Value Furniture 1006 
3 Home Furnishings 1005 
4 Eastern Furniture 1009 
时 Impressions 1004 
6 Furniture Gallery 
7 Period Furniture 
8 California Classics 1002 
9 M & H Casual Furniture 
10 Seminole Interiors 
19 American Euro Lifestyles 1007 
12 Battle Creek Furniture 1008 
13 Heritage Furnishings 
14 Kaneohe Homes 
15 Mountain Scenes 1003 


16 rows selected. 

回顾 一 下 图 7-1 和 图 7-2 将 有 助 于 你 的 理解 。 在 图 7-2 中 ， 左 边 的 圆 代表 客户 ， 右 边 的 
圆 代 表 订 单 。 表 Customer_T 和 Order_T 的 NATURAL JOIN 之 后 ， 只 有 图 7-1 中 画 箭 头 的 
10 行 会 被 返回 。 在 Customer T 上 的 LEFT OUTER JOIN 返回 所 有 有 订单 的 客户 和 所 有 没有 
订单 的 客户 。 由 于 Customer 1 Contemporary Casuals 有 两 个 订单 ， 因 此 两 个 订单 都 会 被 返 
回 ， 最 终 返 回 16 行 数 据 。 

外 连接 的 优点 是 信息 不 会 丢失 。 这 里 ， 无 论 客户 是 否 有 订单 ， 他 们 的 名 字 都 被 返回 。 使 
用 RIGHT OUTER JOIN 将 会 返回 所 有 的 订单 。( 因 为 参照 完整 性 需要 每 个 订单 与 一 个 合法 的 
客户 ID 相关 联 ， 所 以 这 个 右 外 连接 只 能 保证 参照 完整 性 被 执行 。) 没有 订单 的 客户 将 不 在 结 
果 中 。 

查询 : 列 出 订单 表 中 所 有 订单 的 客户 名 、 客 户 ID 号 和 订单 号 ， 包 括 没 有 客户 名 和 客户 
ID 号 的 订单 的 订单 号 。 


SELECT Customer TcCustomerlID,， CustomerName, OrderID 
FROM Customer T RIGHT OUTER JOIN Order TON 
Customer_T.CustomerlD = Order_TCustomer1D; 


7.1.4 四 表 连 接 示例 


关系 模型 的 很 多 功能 来 自 于 它 处 理 数据 库 各 个 对 象 之 间 的 联系 的 能 力 。 设 计 一 个 数据 库 
时 将 每 个 对 象 的 数据 分 开 保存 在 不 同 的 表 中 简化 了 维护 费用 和 数据 完整 性 。 通 过 表 的 连接 将 
各 个 对 象 联系 在 一 起 的 能 力 给 员工 提供 了 关键 的 商业 信息 和 报告 。 尽 管 在 第 6 章 和 本 章 提 供 
的 示例 都 很 简单 并 且 只 是 用 来 提供 对 SQL 的 基本 理解 ， 但 认识 到 这 些 命令 可 以 并 经 常 被 用 
来 建立 更 复杂 的 查询 从 而 为 报告 和 程序 提供 准确 信息 则 非常 重要 。 
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这 里 有 一 个 包含 四 表 连 接 的 连接 查询 样 例 。 该 查询 产生 的 结果 表 包 括 建立 订单 1006 发 
票 所 需要 的 信息 。 想 要 客户 信息 、 订 单 和 订单 行 信息 以 及 产品 信息 就 要 连接 四 个 表 。 图 7-3a 
显示 了 这 个 查询 中 包含 的 四 个 表 的 注释 ERD ; 图 7-3b 显示 四 个 表 的 抽象 实例 图 ， 其 中 假设 
订单 1006 有 两 个 行 条 目 ， 分 别 对 应 产品 Px 和 Py。 鼓 励 读者 画 这 样 的 图 表 以 帮助 构思 查询 


中 涉及 的 数据 以 及 怎样 构造 相应 的 SQL 连接 命令 。 


CUST OMER 


CustomerlD 
CustomerName 
CustomerAddress 
Customer City 
CustomerState 
CustomerPostalCode 


PRODUC T 
ProductiD 
ProductDescription 
ProductFinish 
ProductStandardPrice 
ProductLinelD 





a) 带 有 在 四 表 连 接 中 使 用 的 关系 注释 的 ERD 









x 








CUSTOMER ORDER 


PRODUCT 


Ea 
向 
和 
四 EE 


b) 在 四 表 连 接 中 使 用 的 关系 注释 的 实例 图 表 
图 7-3 ”描述 四 表 连 接 的 图 表 


查询 : 收集 1006 号 订单 生成 发 票 所 必需 的 所 有 信息 。 


SELECT Customer T.CustomerID, CustomerName, CustomerAddress, 


ORDER LINE 


CustomerCity, CustomerState, CustomerPostalCode, Order_T.OrderlD, 


OrderDate, OrderedQuantity, ProductDescription, StandardPrice, 
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(OrderedQuantity * ProductStandardPrice) 
FROM Customer_T, Order T, OrderLine T, Product T 
WHERE Order T.CustomerlD = Customer T.CustomerID 
AND Order T.OrderlD = OrderLine T.OrderIlD 
AND OrderLine T.ProductlD = Product T.ProductID 
AND Order TOrderiD = 1006; 


图 7-4 显示 了 查询 的 结果 。 记 住 ， 由 于 连接 涉及 了 四 个 表 ， 因 此 这 里 有 三 个 列 连接 条 
件 ， 如 下 所 示 : 

1 ) Order_ TCustomerID = Customer_T.CustomerID 连接 一 个 订单 和 其 相关 联 的 客户 。 

2 ) Order TOrderID = OrderLine_T.OrderID 连接 每 个 订单 和 该 订单 的 项 目 细节 。 


3 ) OrderLine_T.ProductID = Product_T.ProductID 连接 每 个 订单 的 详细 记录 和 记录 行 对 
应 的 产品 描述 信息 。 


CUSTOMER CUSTOMER CUSTOMER 
CUSTOMERID CUSTOMERNAME CUSTOMERADDRESS CITY STATE POSTALCODE 


2 Value Furniture 15145 S. W. 17th St. Plano TX 75094 7743 
2 Value Furniture 15145 S. W. 17th St. Plano TX 75094 7743 
2 Value Furniture 15145 S. W. 17th St. Plano TX 75094 7743 


ORDERED PRODUCT (QUANTITY” 
ORDERID ORDERDATE QUANTITY PRODUCTNAME STANDARDPRICE STANDARDPRICE) 


1006 24-OCT -10 1 Entertainment Center 650 650 
1006 24-OCT -10 2 Wiriters Desk 325 650 
1006 24-OCT -10 2 Dining Table 800 1600 





图 7-4 ”四 表 连 接 的 结果 


7.1.5 自 连接 


有 时 候 一 个 连接 需要 将 一 个 表 的 一 些 行 和 该 表 的 另 一 些 行 匹配 起 来 一 一 将 一 个 表 和 
它 本 身 连 接 。 在 SQL 中 没有 专门 的 命令 来 进行 这 一 操作 ， 但 人 们 通常 称 这 个 操作 为 自 连 
接 (self-join)。 自 连接 出 现 有 多 种 原因 ， 最 普遍 的 是 一 元 联系 。 这 种 联系 通过 (例如) 在 
EmployeeSupervisor 列 中 放置 员工 的 管理 人 ( 即 男 一 个 员工 ) 的 EmployeeID (外 键 ) 来 实现 。 
利用 这 种 递归 循环 的 外 键 列 ， 可 以 问 以 下 问题 : 

查询 : 每 个 员工 的 ID 、 名 字 和 他 /她 的 经 理 ( 即 标记 为 Manager 的 管理 人 员 ) 的 名 字 是 
什么 ? 


SELECT E.EmployeelD, E.EmployeeName, M.EmployeeName AS Manager 
FROM Employee_T E, Employee_T M 
WHERE E.EmployeeSupervisor = M.EmployeelD; 


结果 : 
EMPLOYEEID EMPLOYEENAME MANAGER 
123-44-347 Jim Jason Robert Lewis 


图 7-5 用 Venn 图 和 实例 图 来 描述 了 这 个 查询 。 在 这 个 查询 中 有 两 点 需要 注意 。 前 
先 ，Employee 表 实 际 上 是 为 两 个 角色 服务 的 : 员工 和 经 理 。 因 此 FROM 了 于 句 中 引用 了 
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Employee_T 表 两 次 ， 每 次 都 是 为 了 其 相应 的 角色 。 但 是 ， 为 了 在 查询 的 其 他 部 分 区 分 这 些 
角色 ， 我 们 给 每 个 Employee_T 表 取 了 一 个 别名 (在 这 个 例子 中 , E 是 员工 的 别名 ，M 是 经 
理 的 别名 )。 这 样 SELECT 列表 中 的 列 都 清楚 了 : 首先 是 员工 ID 和 员工 名 字 (有 前 缀 E)， 
然后 是 经 理 的 名 字 (有 前 级 M)。 哪 个 经 理 ? 这 是 下 一 个 关键 点 : WHERE 子 句 将 “员工 ” 
和 “经 理 ” 表 根据 外 键 从 员工 (EmployeeSupervisor) 到 经 理 (EmployeeID) 连接 起 来 。 根 据 
之 前 的 SQL,， 它 将 E 和 M 表 看 作 两 个 不 同 的 但 是 有 相同 列 名 的 表 ， 所 以 这 些 列 名 必须 有 一 
个 前 缀 来 区 分 它 每 次 被 引用 时 选择 的 是 哪个 表 。 


Employees (E) Managers (M) 





有 经 验 的 员工 
WHERE E.EmployeeSupervisor = M.EmployeelD 
Employees (E) Managers (M) 





图 7-5 自 连接 例子 


加 上 一 元 联系 ， 读 者 会 发 现 使 用 自 连接 可 以 写 出 很 多 有 趣 的 查询 。 例 如 ， 哪 些 员 工 的 工 
资 要 比 他 们 的 经 理 高 (在 职业 棒球 中 比较 常见 ， 但 在 商业 和 政府 机 构 很 少 )， 或 者 (如 果 数 据 
库 有 这 些 数据 的 话 ) 是 否 有 员工 与 他 /她 的 经 理 结婚 的 (在 家 族 企 业 不 罕见 ,但 可 能 在 很 多 
企业 被 禁止 ) ? 本 章 后 面 的 一 些 问题 与 练习 可 能 需要 用 到 自 连 接 的 查询 。 

就 像 其 他 连接 一 样 ， 基 于 外 键 和 明确 的 一 元 联系 来 建立 自 连 接 不 是 必需 的 。 例 如 ， 当 一 
个 销售 人 员 计 划 去 拜访 一 个 特定 的 客户 时 ， 她 可 能 想 知 道 与 该 客户 有 相同 邮编 的 其 他 所 有 客 
户 是 谁 。 记 住 ， 可 以 根据 列 来 连接 不 同 (或 相同 ) 表 中 的 行 ， 只 要 这 些 列 来 自 相 同 的 数值 域 
并 且 这 些 列 中 数值 的 连接 有 意义 。 例 如 ， 即 使 ProductFinish 和 EmployeeCity 可 能 有 相同 的 
数据 类 型 ， 它 们 并 不 是 来 自 同 样 的 数值 域 ， 并 且 通 过 这 些 列 将 产品 和 员工 连接 起 来 没有 什么 
必要 的 商业 原因 。 但 是 ， 一 个 人 可 能 息 通 过 铂 省 类 员 渍 避 的 打下 时 间 和 和 他 7 部 的 儿 属 慑 时 间 
来 了 解 销售 人 员 的 业绩 。 你 无 法 想象 SQL 可 以 回答 什么 问题 (即使 可 以 对 SQL 怎样 显示 结 
果 有 有 限 的 控制 )。 


7.1.6 子 查询 


之 前 的 SQL 示例 说 明了 连接 两 个 表 的 两 种 基本 方法 之 一 : 连接 技术 。SQL 也 提供 了 子 
查询 技术 ， 它 包括 将 一 个 内 查询 (SELECT..FROM..WHERE) 放置 在 另 一 个 (外 ) 查询 的 
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WHERE 或 HAVING 子 名 中。 内 查询 为 外 查询 的 搜索 条 件 提供 一 个 或 更 多 的 数值 集 。 这 样 
的 查询 被 认为 是 子 查 询 或 对 套子 查询 。 子 查询 可 以 被 从 套 多 次 。 子 查询 也 是 将 SQL 理解 面 
向 集合 语言 的 最 好 的 例子 。 

有 时 ， 连 接 和 子 查询 技术 可 以 完成 相同 的 结果 ， 关 于 使 用 哪 种 技术 ， 不 同 的 人 有 不 同 的 
偏好 。 其 他 时 候 ， 只 能 使 用 连接 或 只 能 使 用 子 查 询 完 成 。 连 接 技术 在 检索 和 显示 来 自 多 个 关 
系 的 数据 并 且 这 些 联 系 没有 必要 散 套 的 时 候 非 常 有 用 ， 然 而 子 查 询 技 术 只 允许 外 查询 中 提 到 
的 表 中 的 数据 显示 。 比 较 一 下 返回 相同 结果 的 两 个 查询 。 它 们 都 回答 了 这 个 问题 ， 订单 编号 
为 1008 的 客户 的 名 字 和 地 址 是 什么 ”首先 ,使 用 连接 查询 ， 这 在 图 7-6a 中 用 图 形 描述 。 

查询 : 订单 编号 为 1008 的 客户 的 名 字 和 地 址 是 什么 ? 


SELECT CustomerName, CustomerAddress, CustomerCity, 
CustomerState, CustomerPostalCode 

FROM Customer _T, Order T 

WHERE Customer T.CustomerlD = Order T. CustomeriD 
AND OrderlD = 1008; 

在 集合 处 理 过程 中 ， 这 个 查询 找到 Order_T 表 中 OrderID = 1008 的 子 集合 ， 然 后 将 该 子 
集合 中 的 行 与 Customer_T 表 中 有 相同 CustomerID 值 的 行 相 匹配 。 在 这 个 方法 中 ， 只 有 一 
个 订单 拥有 OrderID 值 1008 是 没有 必要 的 。 现 在 ， 看 一 下 使 用 子 查询 技术 的 相同 查询 ， 这 
在 图 7-6b 中 用 图 形 描述 。 









ORDER _T 


WHERE 
Order T.CustomerID = 
Customer T.CustomerlID 






CUSTOMER T 


— 






a) 连接 查询 方法 


所 有 CustomerID 







显示 具有 CustomerID 的 
客户 的 客户 数据 ， 也 就 是 
说 ，WHERE Customer_T. 
CustomerID= 内 查询 结果 















Order T. 
CustomerlDs 

WHERE 
OrderlD = 
1008 









b) 子 查 询 方法 
图 7-6 用 两 种 使 用 不 同类 型 的 连接 应 答 查 询 的 图 形 描述 
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查询 : 订单 编号 为 1008 的 客户 的 名 字 和 地 址 是 什么 ? 

SELECT CustomerName, CustomerAddress, CustomerCity, 

CustomerState, CustomerPostalCode 

FROM Customer_T 
WHERE Customer_T.CustomerID = 
(SELECT Order_T.CustomeriD 
FROM Order T 
WHERE OrderiD = 1008); 

注意 这 个 子 查 询 〈《 即 在 阴影 和 圆 括号 中 的 部 分 ) 遵循 SQL 查询 构建 格式 ， 它 可 以 看 
作为 一 个 独立 的 查询 。 因 此 ， 子 查询 的 结果 与 其 他 查询 一 样 是 行 的 集合 一 一 本 例 中 ， 是 一 
个 CustomerID 值 的 集合 。 已 知 结果 中 只 有 一 个 值 。( 因 为 订单 编号 为 1008 的 订单 只 有 一 个 
CustomerID。) 为 了 安全 考虑 ， 可 以 并 且 应 该 在 写 子 查询 时 使 用 IN 运算 符 而 不 是 “=”。 子 
查询 可 以 使 用 在 这 个 查询 中 是 因为 只 需要 显示 外 查询 表 中 的 数据 。OrderID 的 值 在 查询 结果 
中 没有 出 现 ; 它 是 作为 内 查询 的 选择 标准 。 把 子 查 询 中 的 数据 包含 到 结果 中 ， 要 使 用 连接 技 
本 ， 因 为 子 查询 中 的 数据 不 能 被 包含 进 最 终结 果 中 。 

如 上 所 述 ， 我 们 事先 已 知道 先前 的 子 查询 将 会 返回 最 多 一 个 值 ， 即 与 OrderID 1008 关 
联 的 CustomerID。 如 果 没 有 编号 为 1008 的 订单 ， 结 果 将 为 空 。( 建 议 读者 检查 你 的 查询 对 
于 子 查 询 返 回 0、1 或 多 个 值 时 是 否 成 立 。) 如 果 它 包含 关键 字 IN， 则 子 查询 可 以 返回 一 系列 
(集合 ) 的 数值 (包括 0、1 或 多 个 )。 由 于 子 查询 的 结果 只 被 用 来 与 一 个 属性 作 比 较 〈 在 这 个 
查询 中 是 CustomerID)， 所 以 在 子 查询 的 选择 列表 中 只 会 包含 一 个 属性 。 例 如 ， 哪 些 客户 下 
过 订单 ? 下 面 的 查询 会 回答 这 个 问题 。 

查询 : 下 过 订单 的 客户 的 名 字 是 什么 ? 

SELECT CustomerName 

FROM Customer_T 
WHERE CustomerlD IN 
(SELECT DISTINCT CustomerlD 
FROM Order _T); 

这 个 查询 产生 下 面 的 结果 。 按 照 规定 ， 子 查询 的 选择 列表 中 只 有 一 个 外 查询 的 WHERE 
子 句 中 需要 的 属性 ， 即 CustomerID 。 子 查询 中 使 用 DISTINCT 是 由 于 不 关心 一 个 客户 有 多 
少 订单 ， 而 只 要 他 们 有 至 少 一 个 订单 。 对 每 个 在 Order_T 中 找 出 的 客户 ， 会 把 客户 的 名 字 从 
Customer_T 返回 。( 你 会 在 图 7-8a 中 再 次 学 习 这 个 查询 。) 

结果 : 

CUSTOMERNAME 

Contemporary Casuals 

Value Furniture 

Home Furnishings 

Eastern Furniture 

Impressions 

California Classics 

American Euro Lifestyles 

Battle Creek Furniture 

Mountain Scenes 


9 rows selected. 
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限定 词 NOT、ANY 和 ALL 都 要 在 IN 之 前 或 与 运算 符 (如 =、> 和 <) 一 起 使 用 。 因 为 IN 
在 内 查询 中 与 0、1 或 多 个 这 些 值 一 起 使 用 ， 很 多 程序 设计 员 只 简单 使 用 IN 代替 所 有 查询 中 的 
“=”"， 即 使 “=” 符 号 可 以 使 用 。 下 面 的 例子 中 使 用 NOT， 它 也 说 明 连 接 可 以 用 在 内 查询 中 。 
查询 : 哪些 客户 没有 订购 过 电脑 更? 
SELECT CustomerName 
FROM Customer 了 
WHERE CustomerID NOT IN 
(SELECT CustomerlD 
FROM Order_T, OrderLine 工 Product T 
WHERE Order ToOrderIiD = OrderLine_ ToOrderID 


AND OrderLine_T.ProductiD = Product T.ProductiD 
AND ProductDescription = ‘Computer Desk’); 


结果 : 


CUSTOMERNAME 
Value Furniture 

Home Furnishings 
Eastern Furniture 
Furniture Gallery 
Period Furniture 

M & H Casual Furniture 
Seminole Interiors 
American Euro Lifestyles 
Heritage Furnishings 
Kaneohe Homes 


10 rows selected. 


结果 显示 有 10 个 客户 没有 订购 电脑 天。 内 查询 返回 一 个 订购 了 电脑 蝎 的 所 有 客户 的 列 
表 (集合 )。 外 查询 列 出 那些 不 在 内 查询 返回 列表 中 的 客户 名 字 。 图 7-7 形象 地 分 开 了 子 查 
询 和 主 查 询 的 结果 。 

除了 IN 之 外 ， 限 定 词 <ANY 或 >=ALL 也 有 用 。 例 如 ， 限 定 词 >=ALL 可 以 用 来 匹配 集 
合 中 的 最 大 值 。 但 是 小 心 : 一 些 限定 词 的 组 合 可 能 没有 意义 ， 如 =ALL (只 有 在 集合 中 所 有 
元 素 的 值 相同 时 才 有 意义 )。 

其 他 两 个 与 使 用 子 查询 相关 联 的 条 件 是 EXISTS 和 NOT EXISTS。 这 些 关 键 字 都 放 在 
SQL 查询 中 与 IN 相同 的 位 置 ， 只 是 在 子 查询 开始 的 前 面 一 点 。 如 果子 查询 返回 一 个 包括 一 
行 或 多 行 的 中 间 结 果 表 (也 就 是 非 空 集合 )， 则 EXISTS 会 返回 一 个 值 true; 如 果 没 有 行 返回 
(也 就 是 空 集 )， 则 会 返回 false。 如 果 没 有 行 返回 ，NOT EXISTS 会 返回 一 个 值 true ; 如 果 返 
回 至 少 一 行 ， 则 会 返回 false。 

所 以 ， 什 么 时 候 使 用 EXISTS 或 IN, 什么 时 候 使 用 NOT EXISTS 或 NOT IN? 当 你 只 是 
对 子 查询 返回 一 个 非 空 ( 空 ) 集 (也 就 是 你 不 关心 什么 在 集合 中 ， 只 是 关心 它 是 否 为 空 ) 感 
兴趣 时 ， 可 以 使 用 EXISTS (NOT EXISTS)， 当 你 需要 知道 什么 值 在 (不 在 ) 集合 中 时 ， 则 
需要 使 用 IN (NOT IN)。 记 住 ，IN 和 NOT IN 只 返回 一 个 列 的 数值 的 集合 ， 然 后 与 外 查询 
中 的 一 列 作 比较 。EXISTS 和 NOT EXISTS 只 返回 一 个 true 或 false 值 ， 这 依赖 于 内 查询 或 
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子 查 询 中 得 到 的 结果 表 是 否 有 数据 行 。 
考虑 下 面 的 包括 EXISTS 的 SQL 语句 。 
查询 : 包括 天 然 亚麻 材质 的 家 具 的 所 有 订单 的 订单 ID 是 什么 ? 


SELECT DISTINCT OrderlD FROMKGrderLine 了 


WHERE EXISTS 
(SELECT * 
FROM Product T 
WHERE ProductiD =@© 
AND ProductFinish = ‘Natural A 






SELECT CustomerName FROM Customer T 
WHERE CustomerID NOT IN 


(SELECT CustomerID FROM Order T, DrderLine T, Product T 


WHERE Order T.OrderlD = OrderLine T.OrderiD 


AND OrderLine T.ProductID = Product T.ProductlD 





AND ProductDescription = ‘Computer Desk ); 


1. 子 查 询 (显示 在 方 框 中 ) 先 执行 ， 并 创建 一 个 中 间 结 果 表 。 它 2. 主 查 询 后 执行 并 返回 子 查询 结果 给 所 有 
返回 每 个 至 少 买 了 一 个 电脑 桌 的 客户 的 CustomerID NOT IN 客户 
CUSTOMERNAME 


Value Furniture 

Home Furnishings 
显示 Eastern Furniture 
Furniture Gallery 
Period Furniture 
M and H Casual Furniture 
Seminole Interiors 
American Euro Lifestyles 
Heritage Furnishings 
Kaneohe Homes 


CUSTOMERD 来 自 Computer Desk 


订单 的 CustomerID 
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图 7-7 使 用 NOT IN 限定 词 


外 查询 的 每 个 订单 行 都 要 执行 子 查询 。 子 查询 为 每 个 订单 行 检查 是 否 该 行 上 的 产品 材质 
是 天 然 亚麻 (用 上 面 查询 的 箭头 表示 )。 如 果 是 true (EXISTS )， 外 查询 就 显示 那个 订单 的 订 
单 ID。 外 查询 会 一 次 性 地 对 引用 行 的 集合 中 的 每 行 (OrderLine_ T 表 ) 检查 这 一 行 。 结 果 中 
显示 有 7 个 这 样 的 订单 。( 我 们 会 在 图 7-8b 中 进一步 讨论 这 个 查询 。) 

结果 : 


ORDERID 
1001 
1002 
1003 
1006 
1007 
1008 
1009 


7 rows Selected. 


下 过 订单 的 客户 名 字 有 哪些 ? 
SELECT CustomerName 
FROM Customer 下 
WHERE CustomerlD IN 





(SELECT DISTINCT CustomerID 
FROM Order T): 


1. 子 查询 (显示 在 方 框 中 ) 先 执行 ， 并 创 2. 外 查询 为 在 中 间 结 果 表 中 包含 的 每 个 


建 一 个 中 间 结 果 表 : 客户 返回 请 求 的 客户 信息 : 
CUSTOMERID CUSTOMERNAME 
Contemporary Casuals 
显示 ”Value Furniture 

来 目 订 单 的 名 字 Home Furnishings 
CustomerID Eastern Furniture 
Impressions 
California Classics 
American Euro Lifestyles 
Battle Creek Furniture 
Mountain Scenes 
9 rows selected. 9 rows selected. 


a) 处 理 一 个 非 关联 子 查 询 


包括 天 然 亚麻 材质 的 家 具 的 所 有 订单 的 订单 ID 是 什么 ? 
SELECT DISTINCT OrderlD FROM OrderLine T 















PD> 1001 | 
WHERE EXISTS 人 
(SELECT * Py 10027 


、 


FROM Product T 
WHERE ProductiD = OrderLine T.ProductiD 
AND Productfinish = 'Natural Ash ); 
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田 1Engféble |Chery | $175.00| 10001| 
田 2 一 >C2bCoffee Tabb CINatural ASb_ $200.00 
轩 。 4 一 > 3| Computer Desk <C|NaturalAsp | $375.00| 20001 
四 四 4|Entertainment CentefNaturalMaplel $650.00| 30001 
田 SiWritersDesk |Chery | 4$32500| 10001 
田 6|8-DrawerDresser |WhiteAsh | $750.00| 20001 
7iDiningTable CINaturalAsp | $800.00| 20001| 
加 8ComputerDesk |Walnut | $250.00| 30001 


(AutoNumber] | | $000| 


1. 第 一 个 从 OrderLine_T 中 选择 的 订单 ID: OrderID = 1001。 

2. 子 查 询 用 来 评估 该 订单 是 否 有 天 然 亚麻 材质 的 产品 。Product 2 有 并 且 是 该 订单 的 一 部 分 。EXISTS 的 值 是 
true 并 且 订 单 ID 也 被 添加 到 结果 表 中 。 

3. 下 一 个 从 OrderLine_T 中 选择 的 订单 ID: OrderID = 1002。 

4. 子 查询 用 来 评估 该 订单 是 否 有 天 然 亚 麻 材质 的 产品 。 结 果 是 有 。EXISTS 的 值 是 true 并 且 订 单 ID 也 被 加 和 人 
结果 列表 中 。 

5. 继续 处 理 其 他 的 订单 四。 订单 1004、1005 和 1010 都 没有 包含 进 结果 表 是 因为 它们 不 包括 任何 天 然 亚麻 家 
具 成 品 。 


b) 处 理 一 个 关联 子 查 询 
图 7-8” 子 查询 处 理 
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当 在 子 查询 中 使 用 EXISTS 或 NOT EXISTS 时 ， 子 查询 的 选择 列表 通常 选择 所 有 的 列 
(SELECT *) 作为 占 位 待 ， 因 为 返回 哪个 列 都 没有 关系 。 子 查询 的 目的 是 检测 是 否 有 行 满足 
条 件 ， 而 不 是 为 外 查询 的 比较 目的 返回 特定 的 列 的 值 。 显 示 的 列 会 严格 地 由 外 查询 决定 。 之 
前 说 明 的 EXISTS 子 查询 像 其 他 所 有 EXISTS 的 子 查询 一 样 是 关联 子 查询 ， 之 后 会 加 以 介 
绍 。 包 含 NOT EXISTS 关键 字 的 查询 在 没有 找到 满足 子 查询 的 行 的 时 候 ， 将 会 返回 一 个 结 
果 表 。 

综 上 所 述 ， 当 限制 条 件 是 散 套 的 或 者 限制 条 件 以 伦 套 的 方式 更 容易 理解 时 应 使 用 子 查询 
的 方式 。 大 多 数 系统 都 支持 内 查询 中 一 个 且 只 有 一 个 列 和 外 查询 中 的 一 个 列 成 对 连接 ， 但 当 
子 查 询 与 EXISTS 关键 字 一 起 使 用 时 不 需 该 限制 条 件 。 只 有 来 自 外 查询 中 引用 的 表 的 数据 才 
能 被 显示 。 子 查询 可 以 支持 多 达 16 层 的 能 套 。 一 般 查 询 是 由 内 向 外 处 理 的 ， 但 是 关联 子 查 
询 是 从 外 向 内 处 理 的 。 


7.1.7 关联 子 查询 


上 一 市 的 第 一 个 子 查询 示例 中 ， 在 考虑 外 查询 之 前 有 必要 检查 内 查询 。 就 是 说 ， 内 查 
询 的 结果 经 常会 限制 外 查询 的 处 理 。 与 此 相反 ， 关 联 子 查询 ( correlated subquery) 使 用 外 
查询 的 结果 来 决定 内 查询 的 处 理 。 换 言 之 ， 对 于 外 查询 引用 的 每 个 行内 查询 多 少 有 点 不 同 。 
这 种 情况 下 ， 内 查询 必须 为 每 个 外 面 的 行 分 别 计算 ， 反 之 ， 在 更 早 的 例子 中 ， 内 查询 只 为 
外 查询 中 处 理 的 所 有 行 计 算 一 次 。 前 面 EXISTS 子 查询 示例 有 这 个 特征 ， 即 内 查询 为 每 个 
OrderLine_T 行 执行 ,并且 每 次 都 执行 ， 内 查询 都 是 为 了 得 到 不 同 的 ProductID 值 一 一 来 自 
外 查询 的 OrderLine_T 的 那个 值 。 图 7-8a 和 7-8b 描述 了 上 一 节 子 查询 部 分 中 各 个 示例 的 不 
同 处 理 顺序 。 

现在 考虑 男 一 个 需要 构造 关联 子 查询 的 查询 示例 。 

查询 : 列 出 有 最 高 标准 价格 的 产品 的 详细 信息 。 

SELECT ProductDescription, ProductFinish, ProductStandardPrice 


FROM da 
WHERE PA.ProductStandardPrice > ALL 
(SELECT ProductStandardPrice FROM Product T- 
WHERE PB.ProductlD ! =(PA}ProductiD); 


可 以 在 下 面 的 结果 中 看 到 ， 和 餐桌 比 其 他 产品 有 更 高 的 单位 价格 。 


结果 : 
PRODUCTDESCRIPTION PRODUCTFINISH “PRODUCTSTANDARDPRICE 
Dining Table Natural Ash 800 


上 面 的 查询 中 添加 的 箭头 表明 了 内 查询 从 外 查询 的 表 中 得 到 的 一 个 值 的 交叉 引用 。 该 
SQL 语句 的 逻辑 是 子 查询 会 为 每 个 产品 执行 一 次 以 保证 没有 其 他 产品 有 更 高 的 标准 价格 。 
注意 这 里 比较 的 是 表 中 的 行 和 其 本 身 ， 通 过 给 表 两 个 别名 PA 和 PB 来 实现 ; 可 回顾 之 前 将 
其 确定 为 自 连 接 。 首 先 ，ProductID 1 会 被 考虑 。 当 执行 子 查询 时 ， 它 将 返回 一 个 数值 集 ， 
该 数值 集 是 每 个 产品 的 标准 价格 ,除了 在 外 查询 中 正 被 处 理 的 那个 产品 (产品 1， 第 一 次 被 
执行 的 )。 然 后 ， 外 查询 会 检查 正 被 处 理 的 产品 的 标准 价格 是 否 比 子 查询 返回 的 所 有 标准 价 
格 大 。 如 果 是 ， 它 将 会 被 作为 查询 结果 返回 。 如 果 不 是 ， 将 会 处 理 外 查询 中 的 下 一 个 标准 价 
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格 ， 并且 内 查询 会 返回 一 个 包括 其 他 所 有 产品 的 标准 价格 的 列表 。 内 查询 返回 的 结果 列表 随 
着 外 查询 中 的 产品 变化 而 变化 ， 这 使 它 成 为 一 个 关联 子 查 询 。 你 能 确定 标准 价格 的 一 个 特殊 
集合 使 这 个 查询 不 会 给 出 想 要 的 结果 吗 (参见 问题 与 练习 38 ) ? 


7.1.8 使 用 导出 表 


子 查询 不 只 限于 在 WHERE 子 句 中 使 用 。 就 像 在 第 6 章 中 看 到 的 一 样 ， 它 们 也 可 能 被 用 
在 FROM 子 句 中 来 创建 在 查询 中 用 到 的 临时 导出 表 (或 集合 )。 创 建 有 聚集 值 的 导出 表 (如 
MAX，AVG 或 MIN) 允许 在 WHERE 子 句 中 使 用 聚集 。 这 里 ， 超 过 平均 标准 价格 的 家 具 零 
件 被 列 出 。 

查询 : 给 出 标准 价格 高 于 平均 标准 价格 的 全 部 产品 的 产品 描述 、 产 品 标准 价格 和 平均 标 
准 价 格 。 


SELECT ProductDescription, ProductStandardPrice, AvgPrice 


FROM 
(SELECT AVG(ProductStandardPrice) AvgPrice FROM Product 7), 
Product T 

WHERE ProductStandardPrice > AvgPrice; 
结果 : 
PRODUCTDESCRIPTION PRODUCTSTANDARDPRICE AVGPRICE 
Entertainment Center 650 440.625 
8-Drawer Dresser 750 440.625 
Dining Table 800 440.625 


为 什么 这 个 查询 需要 一 个 导出 表 而 不 是 一 个 子 查 询 呢 ? 原因 是 这 里 想 显示 所 有 选择 的 产 
品 的 标准 价格 和 平均 标准 价格 。 在 之 前 关联 子 查询 的 部 分 中 的 类 似 查询 可 以 成 功 地 显示 外 查 
询 中 的 数据 ， 即 产品 表 。 但 是 ， 要 在 每 行 中 显示 标准 价格 和 平均 标准 价格 ， 就 需要 把 这 两 个 
值 都 放 入 “外 ”查询 ， 就 像 在 上 面 的 查询 中 做 的 一 样 。 


7.1.9 联合 查询 


有 时 ， 无 论 你 有 多 聪明 ， 也 不 能 使 用 SELECT 语句 将 想 要 的 所 有 行 放 人 一 个 结果 表 中 。 
幸运 的 是 ， 你 有 救生 索 ! UNION 子 句 用 来 组 合 多 个 查询 的 输出 〈 也 就 是 联合 行 的 集合 ) 到 
一 个 单独 的 结果 表 中 。 使 用 UNION 子 句 ， 每 个 涉及 的 查询 必定 输出 相同 的 列 数 ， 并 且 都 是 
UNION 兼容 的 。 这 表示 输出 的 每 个 查询 的 每 个 列 应 该 是 数据 类 型 兼容 的 。 不 同 的 DBMS 产 
品 的 兼容 数据 类 型 不 同 。 当 执行 一 个 列 的 输出 将 会 合并 两 种 不 同 数据 类 型 的 联合 时 ， 最 安全 
的 是 自己 使 用 CAST 命令 来 控制 数据 类 型 转换 。 例 如 ， 在 Order T 中 的 DATE 数据 类 型 可 
能 需要 转换 成 文本 数据 类 型 ， 如 下 的 SQL 命令 将 会 完成 这 一 点 : 

SELECT CAST(OrderDate AS CHAR) FROM Order TT 


接 下 来 的 查询 确定 了 买 了 最 多 的 Pine Valley 产品 的 客户 和 购买 了 最 少 产品 的 客户 ， 并 将 
结果 返回 在 一 个 表 中 。 
查询 : 


SELECT C1.CustomerlD, CustomerName, OrderedQuantity, 
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‘Largest Quantity’ AS Quantity 
FROM Customer_T Ci1,Order TO1, OrderLine T Q1 
WHERE C1.CustomerlD = O1.CustomerlD 
AND O1.0rderlD = Q1.O0rderID 
AND OrderedQuantity = 
(SELECT MAX(OrderedQuantity) 
FROM OrderLine TT) 


UNION 
SELECT C1.CustomerlD, CustomerName, OrderedQuantity, 
‘Smallest Quantity’ 
FROM Customer _T C1, Order _T O1, OrderLine_ T QI1 
WHERE Ci1.CustomerlD = O1.CustomerID 
AND O1.0OrderlD = Q1.0rderID 
AND OrderedQuantity = 
(SELECT MIN(OrderedQuantity) 
FROM OrderLine_T) 
ORDER BY 3; 


注意 表达 式 Quantity 在 创建 的 时 候 插 入 了 'Smallest Quantity' 和 'Largest Quantity' 以 增 
加 可 读 性 。ORDER BY 子 句 用 来 组 织 输 出 行 的 次 序 。 图 7-9 将 查询 分 成 两 个 部 分 来 帮 你 理 
解 它 是 怎样 处 理 的 。 


结果 : 
CUSTOMERID CUSTOMERNAME ORDEREDQUANTITY QUANTITY 
1 Contemporary 1 Smallest Quantity 
Casuals 
2 Value Furniture 1 Smallest Quantity 
1 Contemporary 10 Largest Quantity 
Casuals 


SELECT C1.CustomerlD, CustomerName, OrderedQuantity, ‘Largest Quantity’ AS Quantity 
FROM Customer T C1,Order T O1, OrderLine T Q1 
WHERE C1.CustomerID = O1.CustomerlD 


AND O1.OrderlD = Q1.OrderID 

AND OrderedQuantity= 
(SELECT MAX(OrderedQuantity) 
FROM OrderLine_T) 





1. 在 以 上 的 查询 中 ， 子 查询 先 处 理 并 创建 一 个 中 间 结 果 表 。 它 包括 OrderLine_T 中 数量 最 多 的 订单 上 且 它 的 
值 是 10。 


2. 下 一 个 主 查询 选择 订单 数量 为 10 的 客户 的 客户 信息 。 当 前 是 订单 数量 为 10 的 订单 。 


SELECT C1.CustomerID，CustomerName, OrderedQuantity, ‘Smallest Quantity 
FROM Customer T C1, Order T O1, OrderLine T Q1 
WHERE C1.CustomerID = DO1.CustomerID 
AND O1.OrderlD = Q1.OrderD 


AND OrderedQuantity= 
(SELECT MIN(OrderedQuantity) 
FROM OrderLine T) 


ORDER BY 3; 





1. 在 第 二 个 主 查 询 中 是 相同 的 处 理 ， 但 是 结果 返回 的 是 最 少 订 单 量 的 订单 。 
2. 这 两 个 查询 由 UNION 命令 连接 在 一 起 。 
3. 结果 根据 OrderedQuantity 的 值 排序 。 默 认 是 升序 值 ， 所 以 有 最 少 订单 量 1 的 订单 列 在 第 一 个 。 


图 7-9 使 用 UNION 联合 查询 
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这 里 必须 用 UNION 回答 该 问题 吗 ? 是 否 也 能 使 用 SELECT 和 一 个 复杂 的 有 很 多 AND 
和 OR 合成 的 WHERE 子 句 来 实现 呢 ? 通常 来 说 ， 有 时 可 以 ( 另 一 个 更 学 术 的 回答 是 “ 视 情 
况 而 定 ”)。 经 常 ， 使 用 几 个 简单 的 SELECT 和 UNION 来 构思 和 写 查 询 更 容易 。 或 者 ， 如 果 
它 是 你 经 常 运行 的 查询 ， 一 种 方式 要 比 另 一 种 更 高 效 。 你 将 会 从 经 验 中 学 到 对 于 给 定 的 环境 
哪 种 方式 对 你 来 说 更 自然 更 好 。 

如 果 你 从 有 限 的 数学 中 记得 并 集 操作 ， 你 可 能 也 会 记得 男 一 个 集合 操作 一 一 交 ( 找 
两 个 集合 中 的 相同 元 素 ) 和 差 ( 找 一 个 集合 中 不 在 另 一 个 集合 的 元 素 )。 这 些 操作 一 一 
INTERSECT ( 交 ) 和 MINUS ( 差 ) 一 一 在 SQL 中 都 是 可 以 的 ， 它 们 的 使 用 与 UNION 类 似 ， 
都 是 操作 由 两 个 SELECT 创建 的 结果 集合 。 


7.2 创建 查询 的 技巧 


SQL 的 简单 基本 结构 使 它 成 为 一 个 新 手 就 可 以 写 简单 特殊 查询 的 查询 语言 。 同 时 ， 它 
也 有 足够 的 灵活 性 和 语法 操作 来 完成 产品 系统 中 的 复杂 查询 。 这 两 个 特征 也 导致 了 创建 查询 
的 淤 在 难题 。 就 像 在 其 他 计算 机 编程 中 那样 ， 你 可 能 不 会 在 第 一 时 间 写 出 正确 的 查询 。 确 信 
你 已 经 见 过 RDBMS 生成 的 错误 代码 解释 。 最 初 可 以 使 用 一 个 测试 数据 集 ， 通 常 很 小 ， 你 可 
以 手动 计算 出 想 要 的 结果 ， 以 此 来 测试 你 的 代码 。 在 写 INSERT、UPDATE 或 DELETE 命令 
时 尤其 要 这 样 ， 这 是 组 织 要 测试 、 开 发 和 生产 数据 库 版 本 的 原因 ， 这 样 不 可 预期 的 开发 错误 
才 不 会 破坏 产品 数据 。 
作为 一 个 写 查询 程序 的 新 手 ， 你 可 以 发 现 写 运行 时 不 报错 的 查询 很 简单 。 视 贺 你 ,但 是 
结果 可 能 不 是 你 真正 想 要 的 。 有 时 ， 你 会 发 现 有 明显 的 问题 ， 特 别 是 忘记 用 WHERE 子 句 定 
义 表 之 间 的 连接 ， 然 后 得 到 记录 的 所 有 可 能 组 合 的 笛 卡 儿 连 接 。 其 他 时 候 ， 你 的 查询 看 似 正 
确 ， 但 使 用 一 个 测试 数据 集 仔 细 检 查 会 发 现 当 应 该 返回 25 行 时 ， 你 的 查询 只 返回 了 24 行 。 
有 时 它 会 返回 你 不 想 要 的 或 部 分 需要 的 重复 数据 ， 有 时 它 不 会 运行 ， 因 为 你 试图 将 不 能 分 组 
的 数据 分 组 。 你 要 小 心 这 些 错误 类 型 以 免 它 们 出 现在 你 的 作业 中 。 在 一 个 已 经 想 好 的 测试 数 
据 集 上 手动 运行 可 以 帮 你 找 出 错误 。 当 你 创建 测试 数据 集 时 ， 添 加 一 些 常见 的 数据 值 示 例 。 
然后 考虑 可 能 出 现 的 异常 情况 。 例 如 ， 真 实数 据 可 能 不 想 包 含 空 值 数据 、 超 出 范围 的 数据 或 
不 可 能 的 数据 值 。 
在 写 任何 查询 的 时 候 某 些 步骤 是 必需 的 。 当 前 可 用 的 图 形 化 界面 使 得 创建 查询 以 及 记录 
你 使 用 的 表 和 属性 名 更 容易 。 有 一 些 建议 可 以 帮助 你 (假设 你 正在 一 个 已 经 定义 并 创建 好 的 
数据 库 上 工作 ): 
e 熟悉 已 经 建立 的 数据 模型 、 实 体 和 联系 。 数 据 模 型 可 能 表达 了 很 多 业务 规则 ， 它 们 可 
能 是 你 考虑 的 业务 或 问题 所 特有 的 。 对 数据 有 比较 好 的 了 解 非常 重要 。 就 像 在 图 7-8a 
和 7-8b 中 说 明 的 一 样 ， 你 可 以 画 出 想 在 查询 中 引用 的 数据 模型 片段 ， 然 后 通过 注释 
来 表明 限制 条 件 和 连接 标准 。 你 可 以 用 样本 数据 画 出 类 似 于 图 7-6 和 图 7-7 这 样 的 图 
和 Venn 图 表 ， 这 也 能 帮 你 构思 怎样 建立 子 查询 或 者 可 以 在 更 复杂 的 查询 中 用 作 组 成 
的 导出 表 。 

e 确定 理解 想 从 查询 中 得 到 什么 结果 。 经 常 ， 用 户 陈述 需求 时 不 够 清晰 ， 所 以 在 你 与 用 
户 合作 后 要 注意 和 列 出 任何 问题 。 

e 指出 你 在 查询 结果 中 想 要 的 属性 。 把 这 些 属性 写 在 SELECT 关键 字 之 后 。 
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e 在 数据 模型 中 定位 你 要 的 属性 并 确定 所 需 数据 存储 的 实体 。 将 这 些 包 括 在 FROM 关 
键 字 之 后 。 

e 检查 ERD 和 在 之 前 步骤 中 确定 的 实体 。 确 定 使 用 每 个 表 中 的 哪些 列 来 建立 联系 。 考 
虑 你 在 每 个 实体 集合 中 想 要 什么 类 型 的 连接 。 

e 为 每 个 连接 建立 一 个 WHERE 相等 关系 。 计 算 涉及 的 实体 个 数 和 建立 的 连接 个 数 。 通 
篆 实 体 数 比 WHERE 子 句 多 一 个 。 当 你 建立 了 基本 的 结果 集合 ， 查 询 可 能 就 完成 了 。 
无 论 如 何 ， 运 行 并 检查 你 的 结果 。 

e 当 你 有 一 个 基本 的 结果 集 时 ， 可 以 添加 GROUP BY 和 HAVING 子 句 、DISTINCT 和 
NOT IN 等 来 微调 你 的 查询 。 添 加 关键 字 后 测试 查询 ， 确 保 你 得 到 想 要 的 结果 。 

e 直到 你 有 更 多 的 查询 编写 经 验 ， 你 的 第 一 个 查询 可 能 是 处 理 你 期 望 遇 到 的 数据 。 现 
在 ， 试 着 考虑 通常 数据 可 能 遇 到 的 异常 情况 并 且 用 包括 非 正 常数 据 、 委 失 数据 、 不 可 
能 值 等 的 测试 数据 集 来 测试 你 的 查询 。 如 果 可 以 处 理 这 些 ， 那 你 的 查询 几乎 完成 了 。 
记 住 手动 检查 也 是 有 必要 的 ， 因 为 SQL 运行 并 不 意味 着 它 正确 。 

当 你 开始 使 用 附加 语法 来 写 更 复杂 的 查询 时 ， 调 试 查询 可 能 更 加 困难 。 如 果 你 使 用 子 查 
询 ， 那 么 将 每 个 子 查询 作为 独立 查询 运行 可 能 更 容易 定位 迎 辑 错误 。 从 髋 套 最 深 的 子 查询 开 
始 。 当 它 的 结果 正确 时 ， 使 用 测试 过 的 子 查询 和 要 使 用 它 的 结果 的 外 查询 。 你 也 可 以 使 用 类 
似 的 过 程 处 理 导出 表 。 按 照 这 个 流程 一 直下 去 直到 你 测试 了 整个 查询 。 如 果 你 的 简单 查询 中 
有 语法 问题 ， 试 着 将 查询 分 离 来 查找 问题 。 可 以 发 现 如 果 只 返回 一 些 重要 的 属性 值 并 且 一 次 
检查 一 个 处 理会 更 容易 定位 问题 。 

当 你 有 更 多 的 经 验 时 ， 便 可 以 为 更 大 的 数据 库 开 发 查询 了 。 随 着 必须 处 理 的 数据 量 的 增 
多 ， 成 功 运行 查询 的 时 间 也 会 明显 变化 ， 这 些 依赖 于 你 怎样 写 查询 。 可 在 更 强大 的 数据 库 管 
理 系统 (如 Oracle) 中 使 用 查询 优化 器 ， 但 是 也 有 一 些 简单 的 写 查询 策略 对 你 有 帮助 。 如 果 
想 要 写 出 更 高 效 的 查询 ， 下 面 是 一 些 需要 考虑 的 常见 策略 : 

e 花 时 间 把 你 在 查询 中 需要 的 列 属 性 名 都 包含 进来 ， 而 不 是 使 用 SELECT * 选项 。 如 果 

你 使 用 一 个 宽 表 并 且 只 需要 一 些 属 性 ， 那 么 使 用 SELECT * 将 会 产生 大 量 不 必要 的 网 
络 堵塞 ， 因 为 要 在 网 络 中 接收 不 必要 的 属性 。 然 后 ， 当 查询 合并 到 产品 系统 中 ， 基 本 
表 中 的 改变 可 能 会 影响 查询 结果 。 指 定 属性 名 会 使 发 现 和 纠正 这 些 问 题 更 简单 。 

e 试 着 建立 多 个 查询 ， 以 便 从 一 个 查询 中 得 到 你 想 要 的 结果 。 仔 细 检 查 你 的 逻辑 以 尽 可 
能 地 减少 查询 中 的 子 查询 。 每 个 添加 的 子 查 询 都 需要 DBMS 返回 一 个 中 间 结 果 集 并 
与 其 他 的 子 查询 合 为 一 体 ， 这 增加 了 处 理 时 间 。 

e 有 时 一 个 表 的 数据 可 能 被 多 个 独立 的 报表 使 用 。 创 建 一 个 单独 的 查询 ， 检 索 需 要 的 所 有 
数据 ， 而 不 是 在 几 个 独立 的 查询 中 得 到 这 些 数据 ; 通过 访问 这 个 表 一 次 而 不 是 重复 访 
问 减 少 了 消耗 。 考 虑 部 门 经 常 使 用 和 为 部 门 使 用 创建 视图 的 数据 会 帮 你 分 辨 这 种 情况 。 

好 的 查询 设计 指南 

现在 你 已 经 获取 了 一 些 开 发 查询 的 策略 ， 这 些 查询 会 给 出 你 想 要 的 结果 。 但 是 这 些 策 
略 会 产生 高 效 的 查询 吗 ? 或 许 它们 会 产生 “地 狱 查 询 ”"， 耗 费 的 时 间 足 够 预订 一 个 比 院 快 
递 、 看 星际 迷航 选集 或 整理 你 的 衣柜 。 很 多 数据 库 专 家 (例如 Deloach ( 1987 ) 和 Holmes 
( 1996 ) ) 为 改进 查询 处 理 提 供 了 一 系列 设置 建议 。 本 章 和 之 前 章节 的 结尾 的 Web 资源 中 ， 
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也 可 以 看 到 发 布 的 查询 设计 的 建议 的 网 址 链接 。 这 里 总 结 了 一 些 建议 ， 适 用 于 很 多 场景 : 

1 ) 理解 索引 在 查询 处 理 中 是 怎样 使 用 的 ”很 多 DBMS 只 在 查询 中 使 用 每 个 表 一 个 索 
引 一 一 经 常 是 最 有 辨别 力 的 那个 (也 就 是 有 最 多 的 关键 值 ) 。 一 些 与 表 的 行 数 相 比 有 很 少数 
值 的 表 从 不 使 用 索引 。 另 外 一 些 可 能 会 阻止 在 与 表 行 的 交叉 点 处 有 很 多 空 值 的 列 上 使 用 索 
引 。 监 控 索 引 的 访问 然后 删除 不 经 常 使 用 的 索引 。 这 将 会 提高 数据 库 更 新 操作 的 性 能 。 普 遍 
来 说 ， 有 等 值 规则 选择 表 行 的 查询 (例如 ，WHERE Finish =“ Birch”OR“ Walnut”) 比 有 更 
多 复杂 限制 条 件 的 查询 (例如 ，WHERE Finish NOT=“ Walnut”) 处 理 得 更 快 ， 因 为 等 值 规 
则 可 以 使 用 索引 实现 。 

2 ) 保持 优化 器 统计 信息 最 新 ”一些 DBMS 不 是 自动 更 新 查询 优化 器 需要 的 统计 信息 。 
如 果 性 能 退化 ， 就 强制 运行 一 个 类 似 更 新 统计 信息 的 命令 

3 ) 和 和 人 用 和 生生 本 乱 和 使 用 兼容 数据 类 型 表明 DBMS 可 以 避免 
在 查询 处 理 中 转换 数据 。 

4) 编写 简单 查询 通常 最 简单 的 查询 对 DBMS 来 说 最 容易 执行 。 例 如 ， 由 于 关系 
DBMS 是 基于 集合 论 的 ， 因 此 编写 操作 行 集合 和 文字 的 查询 。 

5 ) 将 复杂 查询 分 离 为 多 个 简单 的 部 分 因为 DBMS 可 能 在 每 个 查询 中 只 使 用 一 个 索 
引 ， 所 以 将 复杂 查询 分 离 为 多 个 简单 的 部 分 通常 更 好 (这样 每 个 都 会 使 用 一 个 索引 )， 然 后 
将 简单 查询 的 结果 合并 在 一 起 。 例 如 ， 由 于 关系 DBMS 基于 集合 ， 因 此 UNION 两 个 简单 、 
独立 的 查询 结果 的 行 集 对 于 DBMS 来 说 更 容易 。 

6 ) 不 要 把 一 个 查询 藤 套 到 另 一 个 中 ”通常 艇 套 查 询 不 比 避 兔子 查询 产生 同样 结果 的 查 
询 高 效 。 这 是 使 用 UNION 、INTERSECT 或 MINUS 的 另 一 种 情况 并 且 多 个 查询 可 以 更 高 效 
地 产生 结果 。 

7 ) 不 要 把 表 和 它 本 身 合并 ”如果 可 以 的 话 ， 避 免 使 用 自 连 接 。 通 常 为 表 制 作 一 个 临时 
拷贝 并 关联 原来 的 表 和 临时 表 会 更 好 (处理 查询 时 更 高 效 )。 临 时 表 由 于 很 快 被 废弃 ， 因 此 
应 该 在 它们 达到 目的 后 快速 删除 。 

8 ) 为 多 个 查询 创建 临时 表 如果 可 以 ,重复 使 用 在 一 系列 查询 中 使 用 的 数据 。 例 如 ， 
如 果 一 系列 查询 都 要 引用 数据 库 中 同样 的 数据 子 集 ， 则 先 把 这 个 子 集 存储 在 一 个 或 多 个 临时 
表 中 ， 然 后 在 这 一 系列 查询 中 引用 这 些 临 时 表 可 能 会 更 高 效 。 这 样 会 避免 重复 地 将 相同 的 数 
据 合 并 在 一 起 或 重复 地 扫描 数据 库 为 每 个 查询 查找 相同 的 数据 库 片 段 。 这 样 做 的 不 足 是 在 查 
询 运 行 中 原始 表 的 更 新 不 会 改变 临时 表 。 使 用 临时 表 是 导出 表 的 一 种 可 能 替代 ， 并 且 它 们 对 
一 系列 的 引用 只 创建 一 次 。 

9 ) 合并 更 新 操作 ”如果 可 能 ， 可 将 多 个 更 新 命令 合并 到 一 个 中 。 这 将 会 减少 查询 处 理 
的 负载 并 允许 DBMS 找寻 并 行 处 理 更 新 的 方式 。 

10 ) 只 检索 你 需要 的 数据 这 会 减少 访问 的 和 转换 的 数据 量 。 这 可 能 很 明显 ， 但 是 有 一 
些 查 询 的 简写 与 这 个 建议 相悖 。 例 如 ，SQL 命令 SELECT * FROM EMP 将 会 检索 EMP 表 的 
所 有 行 的 所 有 字段 。 但 是 ， 如 果 用 户 只 需要 查看 表 的 某 些 列 ， 转 换 额 外 的 列 将 会 增加 查询 处 
理 的 时 间 。 

11 ) 尽量 在 DBMS 排序 时 使 用 索引 如 果 数 据 以 排序 的 顺序 显示 并 且 排 序 字 有 段 不 存在 
索引 ， 那 么 就 会 在 检索 到 没有 排 好 序 的 数据 后 在 DBMS 外 对 数据 排序 。 通 常 一 个 排序 程序 
会 比 DBMS 在 没有 索引 的 帮助 下 使 用 的 排序 快 。 


12 ) 学 习 ! ”跟踪 查询 处 理 时 间 ， 使 用 EXPLAIN 命令 查看 查询 计划 ， 提 高 你 对 DBMS 
决定 怎样 处 理 查询 的 方式 的 理解 。 参 加 你 的 DBMS 厂商 举办 的 关于 写 高 效 查 询 的 专门 训练 ， 
将 使 你 更 好 地 了 解 查 询 优化 器 。 

13 ) 为 特殊 的 查询 考虑 整个 查询 的 处 理 时 间 总 时 间 包 括 程 序 员 (或 终端 用 户 ) 写 查 询 
语句 和 查询 处 理 的 时 间 。 很 多 时 候 ， 对 于 特殊 的 (ad hoc) 查询 ， 最 好 是 使 DBMS 做 额外 工 
作 以 便 让 用 户 更 快 地 写 查 询 。 并 且 ， 那 不 正 是 技术 想 要 完成 的 吗 一 一 让 人 们 更 多 产 ? 所 以 ， 
不 要 花 太 多 的 时 间 (特别 是 对 于 特殊 查询 ) 尝试 写 更 高 效 的 查询 。 写 一 个 逻辑 正确 的 查询 
(也 就 是 产生 想 要 的 结果 ) 并 让 DBMS 完成 工作 。( 当然 ， 首 先 使 用 EXPLAIN 来 确保 你 没有 
写 “ 灾 难 查询 "”， 这 样 其 他 用 户 会 看 到 在 查询 处 理 时 间 中 的 严重 延迟 。) 这 就 得 出 一 个 推论 : 
如 果 可 能 ， 当 数据 库 轻 负载 的 时 候 运 行 查 询 ， 因 为 总 的 查询 处 理 时 间 包 括 其 他 负载 在 DBMS 
和 数据 库 上 产生 的 延迟 。 

每 个 DBMS 并 不 是 所 有 的 选项 都 有 用 ， 并 且 每 个 DBMS 根据 其 底层 设计 有 其 特别 的 选 

。 你 应 该 查看 你 的 DBMS 参考 手册 以 知道 哪个 特殊 的 选项 对 你 有 用 。 


7.3 ”确保 事务 完整 性 


RDBMS 与 其 他 类 型 的 数据 库 管 理 员 没 有 什么 不 同 ， 他 们 的 最 主要 职责 是 确保 准确 完整 
地 进行 数据 维护 。 即 使 是 大 量 的 测试 ， 就 像 在 前 一 部 分 建议 的 一 样 ， 好 的 数据 管理 员 身 上 
会 发 生 坏 的 情况 : 数据 维护 程序 可 能 不 能 正确 工作 ， 这 是 因为 有 人 提交 了 两 次 工作 ， 数 据 中 
出 现 一 些 出 人 意料 的 异常 情况 ,或 者 计算 机 人 硬件、 软件 或 电源 故障 在 事务 期 间 发 生 。 数 据 维 
护 是 在 称 作 事务 的 工作 单元 中 定义 的 ， 它 包括 一 个 或 多 个 数据 操作 命令 。 事 务 是 由 一 系列 
紧密 相关 的 必须 都 完成 或 都 不 完成 从 而 使 得 数据 库 保 持 合法 的 更 新 命令 组 成 。 例 如 ， 参 见 
图 7-10。 当 一 个 订单 写 入 Pine Valley 数据 库 时 ， 所 有 的 订购 项 目 也 要 在 同一 时 间 写 入 。 因 
此 ， 表 格 中 所 有 的 OrderLine_T 的 行 和 Order_T 的 所 有 信息 都 写 和 人 ， 或 都 不 写 人 。 这 里 ， 商 
业 事 务 是 完整 的 订单 ， 而 不 是 单个 订购 的 项 目 。 我 们 需要 的 是 定义 事务 边界 的 命令 ， 将 事务 
的 工作 作为 数据 库 的 永久 修改 提交 ， 以 及 在 需要 的 时 候 正 确 地 有 目的 地 终 目 事务。 另外， 在 
事务 中 间 出 现 数据 库 处 理 的 异常 终止 后 ， 需 要 数据 恢复 服务 清理 残局 。 可 能 订单 表 是 准确 
的 ， 但 是 在 输入 订单 过 程 中 ,计算 机 系统 故障 或 断 电 。 这 种 情况 下 ， 不 希望 一 些 修改 完成 而 
另 一 些 没有 完成 。 如 果 想 要 一 个 合法 的 数据 库 ， 要 么 都 做 ， 要么 都 不 做 。 

当 一 个 单独 的 SQL 命令 构成 一 个 事务 时 ， 一 些 RDBMS 会 在 命令 运行 后 自动 提交 或 回 
滚 。 但 是 用 户 定 义 的 事务 需要 运行 多 个 SQL 命令 ， 无论 完全 提交 还 是 完全 回 深 ， 这 些 命 令 
都 需要 明确 地 管理 事务 。 很 多 系统 有 BEGIN TRANSACTION 和 END TRANSACTION 命 
今 来 标记 逻辑 工作 单元 的 边界 。BEGIN TRANSACTION 创建 日 志文 件 并 开始 在 这 个 文件 中 
记录 数据 库 的 所 有 修改 (插入 、 删 除 和 更 新 )。END TRANSACTION 或 COMMIT ( WORK) 
提取 日 志 的 内 容 ， 并 将 它们 应 用 到 数据 库 中 ， 这 样 使 得 修改 永久 化 ， 然 后 清空 日 志文 件 。 
ROLLBACK ( WORK ) 请 求 SQL 清空 日 志文 件 ， 有 效 取消 所 有 修改 并 产生 回 滚 或 向 后 恢复 。 
一 些 RDBMS 也 有 AUTOCOMMIT ( ON/OFF) 命令 说 明 在 每 个 数据 修改 命令 之 后 是 否 使 是 
永久 修改 (ON) 还 是 只 在 工作 被 COMMIT WORK 命令 明确 永久 化 (OFF )。 

用 户 定 义 的 事务 可 以 提高 系统 性 能 ， 因 为 事务 可 以 作为 集合 处 理 而 不 是 单独 的 事务 ， 这 
样 减少 了 系统 负载 。 当 AUTOCOMMIT 被 设置 为 OFF 时 ， 修 改 只 有 在 事务 结尾 处 才 上 自动 提 
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交 。 当 AUTOCOMMIT 被 设置 为 ON 时 ， 修 改 会 在 每 个 SQL 语句 结束 的 时 候 自动 提交 ; 这 
将 不 会 允许 用 户 定 义 的 事务 作为 一 个 整体 提交 或 回 深 。 
BEGIN transaction 
INSERT OrderlD, Orderdate, CustomerlD into Order TT; 


INSERT OrderlD, ProductID, OrderedQuantity into OrderLine TT; 


INSERT OrderlD, ProductID, OrderedQuantity into OrderLine TT.; 
INSERT OrderlD, ProductiD, OrderedQuantity into OrderLine 下; 


END transaction 





插入 无 效 的 ProductID 
插入 有 效 信息 


SOMMIT 并 攻 事务 将 ABORTED 


ROLLBACK 所 有 对 Order_T 的 修改 
对 数据 的 所 有 修 
改 永久 化 所 有 对 Order T 和 OrderLine_T 的 修改 都 
撤销 。 数 据 库 状态 如 同事 务 开始 之 前 一 样 


图 7-10 一 个 SQL 事务 序列 〈 伪 代码 ) 

SET AUTOCOMMIT 是 一 个 交互 命令 ， 因 此 可 以 根据 适当 的 完整 性 度量 动态 控制 用 户 会 
话 。 每 个 SQL INSERT、UPDATE 和 DELETE 命令 一 次 只 在 一 个 表 上 工作 。 有 些 数据 维护 
需要 对 要 完成 的 工作 更 新 多 个 表 。 因 此 ， 这 些 事务 完整 性 命令 对 为 了 保持 数据 库 完整 性 而 明 
确定 义 必须 作为 整体 完成 的 数据 库 修 改 的 单元 非常 重要 。 

进一步 ,一些 SQL 系统 对 处 理 并 发 用 户 在 共享 数据 库 的 更 新 时 有 并 发 控制 。 这 些 控制 
可 以 记录 数据 库 修改 ， 这 样 数据 库 可 以 在 事务 中 间 的 异常 终止 后 恢复 。 它 们 也 可 以 撤销 错误 
事务 。 例 如 ， 在 银行 应 用 中 ， 银 行 账户 余额 由 两 个 并 发 用 户 的 更 新 应 该 是 累积 的 。 这 样 的 控 
制 在 SQL 中 对 用 户 透明 : 不 需要 用 户 通 过 编程 来 确保 并 发 访问 数据 的 合适 控制 。 要 确保 一 
个 特定 数据 库 的 完整 性 ， 要 关注 事务 完整 性 和 恢复 问题 ， 并 且 确 信 应 用 程序 员 知 道 什 么 时 候 
使 用 这 些 命令 。 


7.4 数据 字典 


RDBMS 把 数据 库 定义 信息 存储 在 安全 的 由 系统 创建 的 表 中 ; 我 们 可 以 认为 这 些 系统 
表 是 数据 字典 。 熟 悉 RDBMS 的 系统 表 会 获取 有 价值 的 信息 ， 无 论 你 是 用 户 还 是 数据 库 管 
理 员 。 因 为 信息 存储 在 表 中 ， 所 以 可 以 使 用 SQL SELECT 语句 访问 ， 生 成 系统 使 用 、 用 户 
权限 和 限制 等 的 报告 。 而 且 ，RDBMS 也 会 产生 特殊 的 SQL (所 有 权 ) 命令 ,例如 SHOW、 
HELP 或 DESCRIBE， 以 显示 之 前 定义 的 数据 字典 的 内 容 ， 包 括 创建 数据 库 对 象 的 DDL 的 
内 容 。 进 一 步 ， 如 果 用 户 理解 系统 表 结 构 ， 就 能 扩展 存在 的 表 或 建立 其 他 的 表 以 提高 内 置 特 
性 (例如 ， 包 含 谁 负 责 数 据 完 整 性 的 数据 )。 但 是 ， 用 户 经 常 被 限制 直接 修改 系统 表 的 结构 
或 内 容 ， 因 为 DBMS 维护 这 些 表 ， 并 依赖 它们 来 解释 和 分 析 查 询 。 

每 个 RDBMS 为 这 些 定义 保留 了 多 种 内 在 表 。 在 Oracle 11g 中 ， 有 522 种 数据 字典 视图 
供 DBA 使 用 。 很 多 这 样 的 视图 或 DBA 视图 的 子 集 (也 就 是 与 单独 用 户 有 关 的 信息 ) 对 于 没 
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有 DBA 特权 的 用 户 也 可 以 使 用 。 这 些 视图 的 名 字 以 USER (有 权限 使 用 数据 库 的 用 户 ) 或 
ALL (任何 用 户 ) 而 不 是 DBA 开始 。 以 V$ 开头 的 视图 提供 数据 库 更 新 的 性 能 统计 。 这 里 的 
列表 给 出 了 表 、 徐 、 列 和 安全 性 的 信息 ( DBA 可 以 访问 它们 )。 还 有 些 表 与 存储 、 对 象 、 索 
引 、 锁 、 审 计 、 输 出 和 分 布 式 环境 有 关 。 

表 [ > We 7 描述 
DBA_TABLES 包含 数据 库 中 列 上 的 所 有 者 
DBA_TAB_COMMENTS 所 有 表 和 视图 上 的 注解 
DBA_CLUSTERS 数据 库 中 所 有 表 上 的 约束 定义 
DBA_TAB_COLUMNS 数据 库 中 所 有 用 户 信息 

为 了 了 解 在 系统 表 中 找到 的 信息 类 型 ， 以 DBA_USERS 为 例 。DBA_USERS 包括 数据 
库 的 合法 用 户 信 息 ; 它 的 12 个 属性 包括 用 户 名 、 用 户 ID 、 加 密 密 码 、 默 认 表 空间 、 临 时 
表 空 间 、 创 建 的 日 斯 和 简要 描述 。DBA_TAB_COLUMNS 有 31 个 属性 ， 其 中 包括 每 个 表 
的 拥有 者 、 表 名 、 列 名 、 数 据 类 型 、 数 据 长 度 、 精 度 和 大 小 。 下 例 使 用 SQL 查询 在 DBA_ 
TABLES 上 找 出 谁 拥有 PRODUCT_T。( 注 意 这 里 用 PRODUCT_T 而 不 是 Product_T， 因 为 
Oracle 存储 数据 名 全 部 用 大 与 字母 。) 

查询 : 谁 拥有 PRODUCT_T 表 ? 


SELECT OWNER, TABLE_NAME 
FROM DBA_TABLES 
WHERE TABLE_NAME = "PRODUCT_T; 


结果 : 

OWNER TABLE_NAME 

MPRESCOTT PRODUCT T 
7.5 触发 器 和 例 程 


触发 器 和 例 程 是 非常 有 用 的 数据 库 对 象 ， 因 为 它们 都 存储 在 数据 库 中 而 且 被 DBMS 控制 。 
因此 ， 创 建 它们 需要 的 代码 都 存储 在 一 个 地 方 并 被 集中 管理 。 对 于 表 和 列 的 约束 ， 提 高 了 数 
据 完整 性 和 在 数据 库 中 使 用 的 一 致 性 ; 它 在 数据 审计 和 安全 中 创建 数据 更 新 的 信息 日 志 非 常 
有 用 。 触 发 器 不 仅 可 以 用 来 阻止 数据 库 的 非 授 权 修 改 ， 
也 能 用 来 评估 修改 和 根据 修改 的 性 质 来 采取 行动 。 由 名 相 : 
于 触发 器 只 被 存储 一 次 ， 因 此 代码 维护 也 被 简化 了 本 
(Mullins，1995 )。 而 且 ， 由 于 它们 能 包括 复杂 的 SQL 
代码 ， 因 此 要 比 表 和 列 约束 更 强 ; 但 是 约束 通常 更 高 
效 ， 如 果 可 能 的 话 应 该 用 来 替换 等 价 的 触发 器 。 相 对 
约束 而 言 ， 为 完成 同样 的 控制 触发 器 的 一 个 重要 优势 
是 ， 触 发 器 的 处 理 逻 辑 可 以 针对 特定 的 事件 产生 用 户 
定制 的 信息 ， 然 而 ,约束 只 会 产生 一 个 标准 的 DBMS 
错误 信息 ， 通 常 对 于 特殊 事件 不 是 非常 清楚 。 

触发 器 和 例 程 都 包含 程序 代码 块 。 例 程 存 储 的 图 7-11 触发 器 与 存储 过 程 对 比 
是 必须 被 调用 执行 (参见 图 7-11 ) 的 代码 块 ， 它 们 来 源 : 基于 Mullins ( 1995 ) 
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不 目 动 运行 。 与 之 相反 ， 只 要 触发 事件 (例如 UPDATE) 发生， 被 存储 在 数据 库 中 的 触发 
货代 码 就 自动 运行 。 触 发 絮 是 一 种 特殊 类 型 的 存储 过 程 ， 并 可 响应 DML 或 DDL 命令 运 
行 。 触 发 帮 的 语法 和 功能 在 不 同 的 RDBMS 中 不 同 。 当 数据 库 变 成 Microsoft SQL Server 
时 ， 为 Oracle 数据 库 写 的 触发 器 就 需要 重 写 ， 反之 亦 然 。 例 如 ，Oracle 触发 器 可 以 在 执行 
一 个 INSERT、UPDATE 或 DELETE 命令 就 触发 一 次 或 对 于 命令 影响 的 每 行 都 触发 一 次 。 
Microsoft SQL Server 触发 器 可 以 对 每 个 DML 命令 触发 一 次 ， 但 不 能 对 每 行 都 触发 一 次 。 


7.5.1 触发 器 


由 于 触发 坑 在 数据 库 中 存储 和 执行 ， 因 此 它们 可 以 针对 所 有 访问 数据 库 的 应 用 执行 。 触 
发 大 也 可 以 级 联 ， 触 发 其 他 的 触发 器 。 因 此 ,来 自 客 户 端的 一 个 单独 请 求 能 够 导致 在 服务 
复 上 执行 一 系列 的 完整 性 或 逻辑 检查 而 不 在 客户 端 和 服务 器 之 间 产 生 大 量 的 网 络 堵塞 。 触 
发 希 可 以 用 来 确保 应 用 完整 性 、 强 制 业 务 规则 、 创 建 审计 跟踪 、 复 制 表 或 激活 一 个 过 程 
(Rennhackkamp, 1996 ) 。 

约束 可 以 被 认为 是 触发 避 的 一 个 特例 。 它 们 也 是 作为 数据 修改 命令 的 结果 自动 运行 ( 触 
发 )， 但 是 它们 的 精确 语法 要 由 DBMS 确定 ， 而 且 缺 少 触发 器 的 灵活 性 。 

当 在 特殊 的 条 件 下 需要 执行 某 些 动作 作为 一 些 数据 库 事件 (例如 ，DML 语句 INSERT、 
UPDATE 或 DELETE， 或 者 DDL 语句 ALTER TABLE 的 执行 ) 结果 时 ， 使 用 触发 器 。 因 
此 ， 一 个 触发 锅 有 三 个 部 分 一 事件 、 条 件 和 动作 一 一 这 些 部 分 都 在 触发 器 的 编码 结构 中 反 
映 了 。( 图 7-12 中 是 一 个 简单 触发 硕 语 法 。) 考虑 如 下 来 自 Pine Valley 家 具 公 司 的 一 个 例子 : 
负责 存货 维护 的 经 理 需要 知道 (被 通知 的 动作 ) 在 Product_T 表 中 修改 存货 项 目的 标准 价格 
(事件 )。 在 创建 一 个 新 表 PriceUpdates T 后 ， 可 编写 一 个 触发 器 ， 当 产品 更 新 时 触发 器 写 
和 人 每 个 产品 修改 的 日 期 和 新 的 标准 价格 。 触 发 器 被 命名 为 StandardPriceUpdate， 它 的 代码 
如 下 : 


CREATE TRIGGER StandardPriceUpdate 

AFTER UPDATE OF ProductStandardPrice ON Product T 

FOR EACH ROW 

INSERT INTO PriceUpdates T VALUES (ProductDescription, SYSDATE, 
ProductstandardPrice); 


CREATE TRIGGER trigger_name 
{BEFOREI| AFTER | INSTEAD OF} {INSERT | DELETE | UPDATE} ON 
table_ name 


[FOR EACH {ROW | STATEMENT} [WHENI( search condition)] 
<triggered SQL statement here>; 





图 7-12 SQL:2008 中 的 触发 器 语法 


在 这 个 触发 器 中 ， 事 件 是 ProductStandardPrice 的 更 新 ， 条 件 是 FOR EACH ROW (也 就 
是 ， 不 仅仅 是 某 些 行 )， 事 件 之 后 的 动作 是 在 PriceUpdates_T 表 中 插入 特定 的 值 ， 该 表 存 储 
了 修改 发 生 的 时 间 (SYSDATE) 和 表 ProductStandardPrice 中 每 行 修改 的 重要 信息 。 也 有 可 
能 有 更 复杂 的 和 条件， 例如 对 新 的 ProductStandardPrice 达到 一 些 限 制 或 产品 只 与 基 个 产品 线 
关联 时 采取 动作 。 记 住 触发 颖 中 的 程序 在 事件 发 生 的 任何 时 候 都 会 执行 非常 重要 ; 没有 用 户 
必须 请 求 触发 器 触发 ， 也 没有 任何 用 户 可 以 阻止 它 触 发 。 因 为 触发 器 与 Product_T 表 关 联 ， 
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所 以 无 论 是 什么 资源 (应用) 引起 的 事件 ， 触 发 怖 都 会 触发 ; 因此 ， 一 个 交互 的 UPDATE 命 
令 或 在 应 用 程序 中 的 UPDATE 命令 或 在 Product_ T 表 中 针对 ProductStandardPrice 的 存储 过 
程 都 会 导致 触发 器 执行 。 与 之 相反 ， 例 程 (或 存储 过 程 ) 只 有 在 用 户 或 程序 请 求 运行 时 才 会 
执行 。 

触发 器 可 以 在 引起 触发 器 执行 的 语句 之 前 、 之 后 或 替代 (instead of) 的 时 候 发 生 . “和 蔡 
代 ” 和 触发 器 与 之 前 的 触发 锅 不 同 ， 如 果 “ 蔡 代 ” 触 发 吉 触 发 是 代替 指定 的 事务 执行 ， 则 
触发 时 指定 的 事务 不 出 现 。DML 触发 器 可 以 在 INSERT、UPDATE 或 DELETE 命令 上 发 
生 。 它 们 也 可 以 在 每 个 行 被 影响 时 触发 ， 也 可 以 在 每 个 语句 触发 一 次 ， 而 无 论 有 多 少 行 被 
影响 。 在 刚刚 显示 的 示例 中 ， 和 触发 器 应 该 在 Product_T 表 更 新 后 插入 新 的 标准 价格 信息 到 
PriceUpdate_T 表 中 时 被 触发 。 

DDL 触发 右 在 数据 库 管理 中 有 用 ， 也 可 以 用 来 微调 数据 库 操作 和 执行 审计 功能 。 它 们 
触发 响应 DDL 事件 ， 例 如 CREATE、ALTER、DROP、GRANT、DENY 和 REVOKE。 下 
面 的 示例 触发 器 是 从 SQL Sever 2008 在 线 书 (http://msdn2.microsoft .com/en-us/library/ 
ms175941 ) 中 摘录 ， 展 示 了 怎样 利用 触发 融 阻 止 数 据 库 中 不 想 要 的 修改 或 表 的 删除 : 


CREATE TRIGGER safety 
ON DATABASE 
FOR DROP_TABLE, ALTER_TABLE 


AS 
PRINT ‘You must disable Trigger “safety” to drop or alter tables!’ 
ROLLBACK.; 
7.5.2 ” 例 程 


与 触发 器 在 指定 的 事件 发 生 时 就 自动 运行 不 同 ， 例 程 必须 被 明确 调用 ， 就 像 MIN 内 置 
函数 被 调用 一 样 。SQL 调用 例 程 可 以 是 过 程 或 函数 。 在 其 他 编程 语言 中 ， 过 程 和 函数 的 使 
用 方式 一 样 。 函 数 只 返回 一 个 值 上 且 只 有 输入 参数 。 你 已 经 看 到 了 很 多 在 SQL 中 包含 的 内 置 
图 数 。 过 程 可 以 有 多 个 输入 参数 、 输 出 参数 和 既是 输入 又 是 输出 的 参数 。 你 可 以 用 RDBMS 
产品 的 私有 代码 来 声明 和 命名 一 个 过 程 代码 单元 或 调用 (通过 CALL 访问 外 程序 ) 一 个 主语 
言 库 例 程 。SQL 产品 在 SQL : 1999 发 布 之 前 开发 了 自己 的 例 程 版 本 ， 所 以 要 对 你 使 用 的 产 
品 的 语法 和 功能 熟悉 。 一 些 私 有 语言 (如 Microsoft SQL Sever 的 Transact-SQL 和 Oracle 的 
PL/SQL) 被 广泛 使 用 并 将 会 一 直 有 效 。 为 了 使 你 更 多 了 解 各 种 产品 的 存储 过 程 语 法 有 多 少 
变化 ， 表 7-1 测试 了 三 个 RDBMS 厂商 使 用 的 CREATE PROCEDURE 语法 ， 这 是 一 个 存储 
在 数据 库 中 的 过 程 的 语法 。 这 个 表 来 自 Peter Culutzan 的 www.tdan .com/i023fe03.htm (在 
2007 年 6 月 6 日 访问 ， 之 后 没有 访问 过 )。 

下 面 是 一 些 SQL 调用 例 程 的 优点 : 

e 灵活 性 ” 例 程 可 能 比 被 限制 在 数据 修改 环境 中 的 约束 和 触发 器 在 更 多 的 情况 下 使 用 。 

就 像 触发 器 比 约束 有 更 多 的 代码 选项 一 样 ， 例 程 比 触发 占有 更 多 的 代码 选项 。 

e 高 效 性 ” 例 程 可 以 细心 制作 并 优化 ， 比 普通 的 SQL 语句 运行 得 更 快 。 

e 共享 性 ” 例 程 可 以 在 服务 器 上 隐藏 起 来 并 对 所 有 的 用 户 有 效 ， 因 而 它们 不 必 被 重 写 。 

e 实用 性 ” 例 程 作为 数据 库 的 一 部 分 存储 ， 可 能 应 用 在 整个 数据 库 而 不 是 限于 一 个 应 

用 。 这 是 共享 性 的 一 个 必然 结果 。 
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表 7-1 存储 过 程 中 不 同 的 厂商 语法 差异 比较 
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在 存储 过 程 中 厂商 的 语法 差别 比 在 通常 的 SQL 中 更 多 。 为 了 清楚 说 明 这 一 点 ， 下 面 的 图 表 显 示 了 在 三 种 语言 
中 CREATE PROCEDURE 是 什么 样 的 。 我 们 使 用 一 行 来 表示 每 个 重要 的 部 分 ， 那 么 你 可 以 在 每 行 比 较 三 种 语言 。 


SQL: 1999/IBM Oracle (PL/SQL) 
CREATE PROCEDURE CREATE PROCEDURE 
Sp_procl Sp_procl 
(paraml INT) (paraml IN OUT INT) 
MODIFIES SQL DATA BEGIN 
re Maninfiamaaam 
IF paraml <> 0 IF baraml <> 0 
THEN SET paraml = 1: THEN paraml :=1; 
UPDATE Tablel SET UPDATE Tablel SET UPDATE Tablel SET 
columnl = paraml: columnl = (Wparam1l columnl = param1l ; 


来 源 : 数据 来 自 SOL Performance Tuning (Culutzan and Pelzer, Addison-Wesley, 2002 ) 。 查看 www.tdan.comy/ 
i023fe03.htm, June 6, 2007 (该 网 址 不 可 访问 )。 


图 7-13 中 显示 了 SQL:2008 的 过 程 和 机 数 创 建 的 语法 。 就 像 你 所 看 到 的 那样 ， 语 法 很 复 
杂 ， 这 里 不 会 深入 到 每 个 子 句 的 细节 中 。 但 是 ， 如 下 的 一 个 简单 过 程 可 以 使 你 了 解 代码 是 怎 


样 工 作 的 。 















{CREATE PROCEDURE| CREATE FUNCTION)} routine_name 
([parameter [{,parameter} . . .]]) 

[RETURNS data_ type result cast] /* for functions only */ 
[LANGUAGE {ADA|C|COBOL|FORTRAN|I MUMPS|PASCAL|PLI| SQLY 
[PARAMETER STYLE {SQLIGENERALY 

[SPECIFIC specific_name] 

[DETERMINISTIC| NOT DETERMINISTIC] 

[NO SQL | CONTAINS SQL|READS SQL DATA| MODIFIES SQL DATA] 
[RETURNSNULL ON NULL INPUT| CALLED ON NULL INPUT] 
[DYNAMIC RESULT SETS unsigned integer] /*for procedures only */ 
[STATIC DISPATCH] [* for functions only */ 
[NEW SAVEPOINT LEVEL | OLD SAVEPOINT LEVEL] 

routine body 


图 7-13 SQL:2008 例 程 创建 语法 


过 程 是 在 模式 中 分 配 了 特殊 名 字 并 存储 在 数据 库 中 的 程序 化 的 SQL 语句 的 集合 。 当 需 
要 运行 过 程 的 时 候 ， 使 用 名 字 调 用 。 当 被 调用 时 ， 在 过 程 中 的 所 有 语句 都 会 被 执行 。 由 于 所 
有 的 语句 被 一 次 性 传输 而 不 是 单独 发 送 ， 因 此 过 程 的 这 个 特征 减少 了 网 络 拥塞。 过 程 可 以 访 
问 数据 库 内 容 ， 也 可 能 有 本 地 变量 。 当 过 程 访问 数据 库 内 容 时 ， 如 果 调 用 过 程 的 用 户 /程序 
没有 权限 访问 过 程 使 用 的 数据 库 部 分 ， 过 程 就 会 产生 一 个 错误 信息 。 


7.5.3 _ Oracle PL/SQL 中 的 例 程 示例 


这 一 节 将 展示 一 个 使 用 Oracle PL/SQL 的 过 程 示例 。PL/SQL 是 宿主 SQL 的 扩展 编程 语 
言 。 由 于 篇 幅 所 限 这 里 只 显示 一 个 简单 的 例子 。 
为 了 建立 一 个 设置 售 价 的 简单 过 程 ， 在 Pine Valley 家 具 公 司 的 Product_T 表 中 增加 了 新 
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列 SalePrice 存储 产品 的 售 价 : 


ALTER TABLE Product T 
ADD (SalePrice DECIMAL (6,2)); 


结果 : 


Table altered. 


这 个 简单 的 PL/SQL 过 程 将 执行 两 个 SQL 语句 ， 没 有 输入 和 输出 参数 ; 如 果 要 给 出 函 
数 ， 就 与 CREATE TABLE 命令 中 的 列 类 似 ， 在 过 程 名 之 后 列 出 参数 并 在 括 弧 子 句 中 给 ! 
参数 的 SQL 数据 类 型 。 该 过 程 扫描 Product_T 表 中 的 所 有 行 。 为 ProductStandardPrice 高 于 
$400 ( 含 ) 的 产品 打折 10%，ProductStandardPrice 低 于 $400 的 产品 打折 15%。 与 其 他 数据 
库 对 象 一 样 ， 有 创建 、 修 改 、 蔡 换 、 删 除 和 显示 过 程 代码 的 SQL 命令 。 如 下 是 一 个 Oracle 


代码 模块 ， 它 将 创建 并 存储 名 为 ProductLineSale 的 过 程 : 


CREATE OR REPLACE PROCEDURE ProductLineSale 


AS BEGIN 
UPDATE Product_T 


SET SalePrice = .90 * ProductStandardPrice 
WHERE ProductStandardPrice > = 400; 


UPDATE Product T 


SET SalePrice = .85 * ProductStandardPrice 


WHERE ProductStandardPrice < 400; 
END; 


如 果 语 法 被 接受 ，Oracle 返回 注释 “Procedure created”。 


要 在 Oracle 中 运行 过 程 ， 使 用 下 面 这 个 命令 (可 以 作为 一 个 应 用 程序 的 一 部 分 或 其 他 存 


储 过 程 的 一 部 分 交互 运行 ): 
SQL > EXEC ProductLineSale 
Oracle 如 下 啊 应 : 
PL/SQL procedure successfully completed. 
现在 Product T 包括 如 下 内 容 : 


PRODUCTLINE PRODUCTID PRODUCTDESCRIPTION PRODUCTFINISH 


10001 1 End Table 
20001 2 Coffee Table 
20001 3 Computer Desk 
30001 4 Entertainment Center 
10001 5 Writer's Desk 
20001 6 8-Drawer Dresser 
20001 7 Dining Table 

260 30001 8 Computer Desk 


Cherry 
Natural Ash 
Natural Ash 
Natural Maple 
Cherry 

White Ash 
Natural Ash 
Walnut 


175 
200 
.19 
650 
323 
750 
800 
250 


PRODUCTSTANDARDPRICE SALEPRICE 


148.75 
170 
318.75 
585 
276.25 
675 
720 

人 人 12, 


已 经 强调 了 很 多 次 SQL 是 面向 集合 的 语言 ， 意 思 是 SQL 命令 的 结果 是 行 的 集合 。 你 可 
能 注意 到 在 图 7-13 中 过 程 可 以 跟 很 多 不 同 的 主语 言 一 起 工作 ， 它 们 很 多 都 是 面 癌 记录 的 语 
言 ， 意 味 着 它们 是 一 次 操作 一 个 记录 或 行 。 这 个 不 同 经 常 被 叫 作 SQL 和 使 用 SQL 命令 的 主 
语言 间 的 阻抗 失 配 (impedance mismatch)。 当 SQL 调用 一 个 SQL 过 程 ， 如 上 例 所 示 ， 这 不 
是 一 个 问题 ,但 是 当 过 程 被 调用 时 ， 例如， 被 C 程序 调用 ， 这 就 是 一 个 问题 了 。 下 一 节 将 
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考虑 主语 言 中 的 舱 入 式 SQL 和 一 些 需要 的 附加 能 力 ， 以 便 使 SQL 与 用 其 他 面向 集合 的 语言 
写 的 程序 无 缝 结合。 


7.6 藤 入 式 SQL 和 动态 SQL 


之 前 已 经 使 用 了 交互 或 直接 形式 的 SQL。 在 交互 SQL 中 ，SQL 命令 的 输入 和 执行 是 在 
同一 时 间 。 每 个 命令 构成 工作 的 一 个 逻辑 单元 或 一 个 事务 。 维 护 有 效 数 据 库 的 必要 命令 (如 
ROLLBACK 和 COMMIT ) 在 大 多 数 交 互 SQL 情景 下 都 是 对 用 户 透 明 的 。SQL 本 来 只 是 为 
处 理 数据 库 访问 而 创建 ， 没 有 流 控制 或 创建 一 个 应 用 必要 的 其 他 结构 。 在 SQL:1999 中 介绍 
的 SQL/PSM 提供 了 开发 数据 库 应 用 所 需要 的 各 种 类 型 的 纲领 性 扩展 。 

比 SQL/PSM 更 早 ， 其 他 两 种 类 型 的 SQL 被 广泛 地 应 用 在 客户 端 和 服务 器 端 来 创建 应 
用 ; 它们 被 称 为 嵌入 式 SQL (embedded SQL) 和 动态 SQL ( dynamic SQL )。 如 果 命 令 被 
放 在 3GL 主语 言 的 合适 位 置 的 话 ，SQL 命令 可 以 被 散人 到 第 三 代 语 言 (3GL)， 如 Ada 和 
COBOL 以 及 C、PHP、.NET 和 Java 中 。 如 在 上 一 节 看 到 的 一 样 ，Oracle 也 提供 PL/SQL 或 
SQL 过 程 语言 ， 这 是 一 个 通过 添加 一 些 过 程 语 言 特性 (如 变量 、 类 型 、 控 制 结构 (包括 IF- 
THEN-ELSE 御 环 )、 哨 数 和 过 程 ) 来 扩展 SQL 得 到 的 一 种 私有 语言 。PL/SQL 代码 块 也 能 髓 
人 到 3GL 程序 中 。 

动态 SQL 在 运行 时 导出 明确 的 SQL 语句 。 程 序 员 写 应 用 程序 接口 (API) 是 为 了 实现 语 
言 之 间 的 接口 。 秽 入 式 SQL 和 动态 SQL 将 会 继续 被 使 用 。 程 序 员 习 惯 了 它们 ， 并 且 在 很 多 
情况 中 ， 与 将 SQL 作为 应 用 语言 来 进行 数据 库 创 建 、 管 理 和 查询 相 比 ， 它 们 仍然 是 更 简单 
的 方式 。 

以 下 是 在 3GL 中 通 入 SQL 的 理由 : 

1 ) 它 有 可 能 为 用 户 创建 一 个 更 灵活 可 访问 的 接口 。 使 用 交互 SQL 需要 对 SQL 和 数据 
库 结构 都 有 透彻 的 理解 一 一 一 个 普通 的 应 用 用 户 可 能 没有 的 理解 。 尽 管 很 多 RDBMS 提供 表 
格 、 报 告 和 应 用 产生 器 (或 这 些 功 能 作为 附加 组 件 )， 使 用 这 些 工具 不 容易 完成 开发 者 频繁 
想象 的 功能 ， 但 使 用 3GL 能 够 很 容易 地 完成 。 大 型 的 复杂 程序 需要 访问 关系 数据 库 ， 可 能 
最 好 使 用 3GL 和 骨 入 式 SQL 调用 SQL 数据 库 编 程 。 

2 ) 使 用 嵌入 式 SQL 可 能 改进 性 能 。 使 用 交互 SQL 需要 每 个 查询 被 执行 的 时 候 ， 把 查 
询 转 换 成 可 执行 的 机 器 代码 。 或 是 在 直接 SQL 情况 下 自动 运行 的 查询 优化 器 可 能 不 能 成 功 
优化 查询 ， 导 致 查询 运行 缓慢 。 使 用 嵌入 式 SQL， 开 发 者 有 更 多 的 数据 库 访问 控制 并 能 获 
得 巨大 的 性 能 提高 。 知 道 什 么 时 候 依 赖 SQL 转换 器 和 优化 器 、 什 么 时 候 通过 程序 控制 依赖 
于 问题 的 性 质 ， 并 且 只 有 通过 经 验 和 测试 才能 更 好 地 决策 。 

3 ) 使 用 嵌入 式 SQL 可 能 改进 数据 库 安 全 性 。 限 制 访问 可 以 通过 DBA 使 用 SQL 的 
GRANT 和 REVOKE 许可 或 使 用 视图 实现 。 相 同 的 限制 也 能 在 艇 入 式 SQL 应 用 中 被 调用 ， 
这 样 提供 另 一 层 保护 。 复 杂 的 数据 完整 性 检查 也 能 更 容易 完成 包括 交叉 字段 的 一 致 性 
检查 。 

使 用 嵌入 式 SQL 的 程序 包括 使 用 3GL (如 CC 或 COBOL) 写 的 主 程序 和 一 些 穿插 其 中 的 
SQL 代码 段 。 每 个 SQL 代码 段 都 以 EXEC SQL 开始 ， 关 键 字 表示 能 人 式 SQL 命令 将 在 预 
编译 的 时 候 被 转换 成 主 源 代 码 。 对 计划 使 用 的 每 个 主语 言 需要 不 同 的 预 编 译 器 。 对 每 一 种 语 
言 要 确定 3GL 编译 器 与 你 的 RDBMS 预 编译 器 兼容 。 
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当 预 编译 需 遇 到 一 个 EXEC SQL 语句 时 ， 它 会 把 SQL 命令 翻译 成 主 程序 语言 。 一 些 
(但 不 是 全 部 ) 预 编 译 髓 会 检查 SQL 语法 正确 性 并 在 这 个 点 生成 需要 的 错误 信息 。 其 他 预 编 
译 需 在 SQL 语句 试图 执行 的 时 候 才 产生 错误 消息 。 一 些 产 品 的 预 编译 占 (DB2、SQL/DS、 
Ingres) 创建 SQL 语句 的 单独 文件 ， 该 文件 随后 被 称 为 绑 定 器 的 单独 工具 处 理 ， 绑 定 器 决定 
引用 对 象 存在 ， 用 户 有 足够 权限 运行 语句 和 使 用 的 处 理 方式 。 其 他 产品 ( Oracle 、Informix ) 
在 运行 时 解释 语句 而 不 是 编译 语句 。 无 论 哪 种 情况 ， 结 果 程 序 将 包括 DBMS 例 程 的 调用 ， 
连接 / 编辑 程序 会 将 这 些 例 程 连接 到 程序 中 。 

动态 SQL 在 应 用 处 理 时 生成 合适 的 SQL 代码 。 很 多 程序 员 使 用 API， 如 ODBC， 这 些 
API 可 以 把 SQL 命令 传输 到 任何 ODBC 兼容 的 数据 库 。 动 态 SQL 对 很 多 Internet 应 用 很 重 
要 。 因 为 准确 的 SQL 查询 是 在 运行 时 确定 的 ， 包 括 传 输 的 参数 数目 和 要 访问 哪个 表 等 ， 这 
使 得 开发 者 能 够 创建 更 灵活 的 应 用 。 在 一 个 SQL 语句 被 重复 使 用 上 且 每 次 执行 获取 不 同 的 参 
数值 的 时 候 ， 动 态 SQL 非常 有 用 。 

藤 入 式 和 动态 SQL 都 易 受 恶意 算 改 的 攻击 。 任 何 包 括 或 者 是 构成 SQL 语句 的 过 程 都 
应 检查 这 种 易 损 性 。 攻 击 的 通常 形式 涉及 将 恶意 代码 插入 到 与 SQL 命令 串联 的 用 户 输入 变 
量 中 然后 被 执行 。 另 外 ， 恶 意 代码 包含 在 存储 在 数据 库 的 文本 中 。 只 要 恶意 代码 在 结构 上 
正确 ，SQL 数据 库 引 擎 就 会 执行 它 。 阻 止 和 识别 这 种 攻击 很 复杂 ， 这 也 超出 了 本 书 的 范围 。 
我 们 鼓励 读者 做 一 个 关于 SQL 攻击 主题 的 网 络 调 查 。 至 少 用 户 输入 要 小 心 验 证 ， 强 类 型 的 
列 应 当 限 制 暴露 ， 由 于 输入 数据 能 被 过 滤 或 修改 ， 特 殊 SQL 字符 (例如 , ; ) 或 单词 (例如 ， 
DELETE) 要 放 在 引用 中 ， 这 样 它 们 就 不 会 被 执行 。 

目前 ， 开 源 数 据 库 连接 (ODBC ) 标准 是 最 常用 的 API。SQL : 1999 包含 SQL 调用 层 接 
口 (SQL/CLI)。 它 们 都 是 用 C 编写 ， 也 都 是 基于 相同 的 早期 标准 。Java 数据 库 连 接 (JDBC) 
使 用 Java 连接 的 行业 标准 。 它 还 不 是 ISO 标准 。 在 SQL : 2008 中 没有 添加 这 方面 的 新 
功能 。 

随 着 SQL : 2008 更 完全 的 实现 ， 和 从 人 式 和 动态 SQL 的 使 用 将 变 得 更 加 标准 化 ， 因 为 该 
标准 首次 创建 了 计算 完全 的 SQL 语言 。 大 多 数 厂 商都 是 独立 创建 这 些 功 能 ， 因 此 ， 未 来 几 
年 将 是 SQL : 2008 标准 产品 和 更 老 的 版 本 产品 同时 存在 的 时 代 。 用 户 需 要 意识 到 这 些 可 能 
性 并 理解 它们 。 


总 结 


i 二 


本 章 延 续 了 第 6 章 的 内 容 ， 继 续 介 绍 了 SQL 语言， 包括 等 值 连接 、 自 然 连 接 、 外 连接 
和 联合 连接 。 等 值 连接 是 基于 要 连接 的 表 的 共同 列 的 值 相等 ， 并 且 返 回 所 有 请 求 的 结果 ， 包 
括 从 连接 中 包含 的 每 个 表 中 得 到 的 公共 列 的 值 。 自 然 连 接 返回 所 有 的 请 求 结果 ， 但 是 只 包含 
了 公共 列 的 值 一 次 。 外 连接 返回 了 连接 中 的 一 个 表 中 的 所 有 值 ， 而 不 论 在 另 一 个 表 中 是 否 有 
匹配 值 存在 。 联 合 连接 返回 连接 的 每 个 表 中 的 所 有 数据 到 一 个 表 中 。 

在 套子 查询 是 多 个 SELECT 语句 嵌 套 在 一 个 单独 的 查询 中 ， 对 复 邓 查询 情况 很 有 用 。 
关联 子 查询 是 子 查询 的 一 个 特殊 形式 ， 在 内 查询 执行 前 需要 知道 外 查询 中 的 一 个 值 。 其 他 子 
查询 处 理 内 查询 ， 返 回 一 个 结果 给 下 一 个 外 查询 ， 然 后 处 理 这 个 外 查询 。 

其 他 高 级 SQL 主题 包括 内 入 式 SQL 的 使 用 和 触发 器 和 例 程 的 使 用 。SQL 可 以 被 包含 在 
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很 多 第 三 代 语言 中 ， 如 COBOL、C、Fortran 和 Ada 以 及 更 多 现代 语言 (如 C、PHP、.NET 
和 Java) 的 上 下 文中 。 瞬 入 式 SQL 的 使 用 允许 更 灵活 的 接口 开发 ， 提 高 了 性 能 和 数据 库 安 
全 性 。 用 户 定 义 的 在 记录 插入 、 更 新 或 删除 时 自动 运行 的 功能 被 称 为 触发 怖 。 过 程 是 能 被 调 
用 执行 的 用 户 定义 的 代码 模块 。OLTP 和 OLAP 分 别 用 来 操作 事务 处 理 和 数据 分 析 。 

SQL 调用 例 程 ， 包 括 触发 需 、 盯 数 和 过 程 ， 都 包括 在 SQL:1999 中 。 用 户 必须 明白 这 些 
功能 都 是 作为 厂商 特定 的 扩展 ， 并 且 将 会 持续 存在 一 段 时 间 。 

动态 SQL 是 网 络 连接 数据 库 的 一 个 完整 部 分 ， 将 会 在 第 8 章 详细 说 明 。 本 章 提 供 了 
SQL 的 一 些 更 复杂 的 功能 ， 并 确立 了 构建 数据 库 应 用 程序 必须 掌握 的 SQL 的 扩展 和 复杂 功 


能 的 意识 。 
关键 术语 


Backward recovery (rollback) (向 后 恢复 ( 回 滚 ) ) 
Correlated subquery (关联 子 查询 ) 

Dynamic SQL (动态 SQL ) 

Embedded SQL ( 拷 入 式 SQL ) 

Equi-join (等 值 连接 ) 

Function( 铺 数 ) 


1. 定义 下 列 术 语 : 


i. 国 数 
2. 把 下 列 术 语 与 合适 的 定义 匹配 起 来 : 
等 值 连接 


移入 式 SQ 

COMMIT 

动态 SQ 

ROLLBACK 
.什么 时 候 外 连接 用 来 替换 自然 连接 ? 
.解释 说 明 关 联 子 查询 的 处 理 顺 序 。 








OD nh 


一 个 客户 订单 或 在 分 配 客户 的 货物 时 ) ? 


Join (连接 ) 

Natural join (自然 连接 ) 
Outer join (外 连接 ) 
Procedure (过 程 ) 
Trigger (触发 器 ) 
Transaction (事务 ) 


c. 能 人 式 SQL 
g. 目 连接 


d. 过 程 
h. 外 连接 


a. 撤销 表 的 修改 

b. 返回 指定 表 的 所 有 记录 

c. 保持 多 余 的 列 

d. 表 的 永久 性 修改 

e. 在 主语 言 中 包含 SQL 语句 的 过 程 

f. 应 用 能 实时 生成 特定 SQL 代码 的 过 程 
g. 不 保留 多 余 的 列 

h. 在 给 定 条 件 下 执行 的 SQL 语句 集合 

i 存储 并 命名 的 过 程 和 SQL 语句 集合 


.解释 如 下 关于 SQL 的 语句 : 任何 可 以 使 用 子 查询 方法 写 的 查询 都 可 以 使 用 连接 的 方法 写 ， 但 反之 不 行 。 
.在 SQL 中 COMMIT 命令 的 目的 是 什么 ”提交 是 怎样 与 商业 事务 的 概念 联系 起 来 的 (例如 ， 在 输入 


7. 在 为 数据 库 写 触发 器 的 时 候 必 须 小 心 练习 。 可 能 会 遇 到 什么 问题 ? 


8 解释 定义 触发 器 代码 模块 的 结构 。 
9. 在 什么 情况 下 可 以 使 用 UNION 子 句 ? 
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10. 讨论 触发 希 和 存储 过 程 之 间 的 不 同 。 

11. 列 出 四 个 SQL 调用 例 程 的 优点 。 

12. 什么 时 候 会 考虑 使 用 组 入 式 SQL ? 什么 时 候 会 使 用 动态 SQL ? 

13. 你 认为 在 SQL 中 CASE 关键 字 什么 时 候 会 有 用 ? 

14. 解释 导出 表 的 使 用 。 

15. 描述 一 个 你 想 要 使 用 导出 表 的 例子 。 

16. 什么 是 PL/SQL， 它 在 SQL 之 外 还 包含 了 什么 ? 

17. 如 果 在 UNION 操作 中 涉及 的 两 个 查询 包含 不 兼容 数据 类 型 的 列 ， 怎 样 解决 这 个 问题 ? 

18. 当 连 接 不 止 两 个 表 时 ， 外 连接 容易 实现 吗 ? 为 什么 ? 

19. 本 章 讨论 了 Oracle 11g 的 数据 字典 视图 。 调 研 另 一 个 RDBMS ， 例 如 Microsoft SQL Server， 报 告 
它 的 数据 字典 功能 ， 并 与 Oracle 进行 比较 。 


问题 与 练习 


问题 与 练习 1 一 5 是 基于 课程 安排 的 3NF 关系 和 图 7-14 中 的 样本 数据 。 对 于 问题 与 练习 1 一 5， 
画 一 个 Venn 或 ER 图 并 显示 你 希望 在 你 的 查询 中 用 来 产生 结果 的 数据 。 


STUDENT (StudentID, StudentName) QUALIFIED (FacultyID, CourselD, DateQualified) 


StudentiD StudentName 


Fa Daeouaiia 



















Letersky ISM 3112 9/1988 
Altvater ISM 3113 9/1988 
Aiken ISM 4212 9/1995 
Marra ISM 4930 9/1996 

ISM 3113 9/1991 





ISM 3112 9/1991 


FACULTY (FacultyID, FacultyName) SECTION (SectionNo, Semester, CourselD) 


2143 Birkin ISM 3113 
Berndt ISM 3113 
Collins ISM 4212 
ISM 4930 














COURSE (CourselD, CourseName) REGISTRATION (StudentID, SectionNo, Semester) 













ISM 3113 Syst Analysis 
ISM 3112 Syst Design 
ISM 4212 Database 





ISM 4930 Networking 


图 7-14 课程 安排 关系 (问题 与 练习 1 ~ 5) 


1. 为 下 面 每 个 查询 写 SQL 检索 语句 命令 。 
a. 显示 所 有 课程 中 包含 ISM 前 缀 的 课程 的 ID 和 名 字 。 
b. 显示 教授 Berndt 可 以 教 的 所 有 课程 。 
c. 显示 班级 花 名 册 ， 包 括 在 ISM 4212 的 班级 2714 注册 的 所 有 学 生 的 名 字 。 
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2. 写 一 个 SQL 查询 解决 如 下 问题 : 哪个 教员 可 以 教 ISM 3113 ? 
3. 写 一 个 SQL 查询 解决 如 下 问题 : 是 否 有 教员 可 以 教 ISM 3113 但 不 可 以 教 ISM 4930 ? 
4， 写 解决 如 下 问题 的 SQL 查询 : 
a. 有 多 少 学 生 在 学 期 I-2008 的 2714 班级 注册 ? 
b. 有 多 少 学 生 在 学 期 I-2008 的 ISM 3113 课程 注册 ? 
5. 写 一 个 SQL 查询 解决 如 下 问题 : 哪些 学 生 在 学 期 I-2008 没有 在 任何 课程 中 注册 ? 
问题 与 练习 6 一 14 基 于 图 7-1$。 这 个 问题 的 设置 延续 了 第 6 章 的 基于 图 6-11 的 问题 与 练习 
10 ~ 15。 
6. 确定 在 图 7-15 中 四 个 实体 之 间 的 联系 。 列 出 每 个 实体 的 主键 以 及 建立 联系 和 保留 参照 完整 性 所 必 
要 的 外 键 。 当 你 建立 TUTOR REPORTS 中 的 主键 时 ， 要 特别 注意 这 个 表 中 的 数据 。 


TUTOR (TutorlD, CertDate, Status) MATCH HISTORY (MatchID, TutoriD, StudentlD， 
StartDate, EndDate ) 


| | | 


1/15/2008 5/15/2008 
2/10/2008 3/01/2008 


四 避 枉 
















6/01/2008 6/15/2008 
6/01/2008 6/28/2008 


6/01/2008 wal 






StudentlD 















8 
00 | 78 





图 7-15 成 人 教育 程序 (问题 与 练习 6 一 14) 


7. 写 SQL 命令 , 在 STUDENT 表 中 添加 MATH SCORE。 

8. 写 SQL 命令 , 在 TUTOR 中 添加 SUBJECT。SUBJECT 中 人 允许 的 数据 只 能 是 Reading、Math 和 ESL。 

9 如 果 一 个 教师 登记 注册 表示 想 要 教 阅读 和 数学 ， 你 需要 做 什么 ? 画 出 新 的 ERD 图 并 写 出 在 处 理 这 
个 开发 时 需要 的 SQL 语句 。 

10. 写 SQL 命令 找 出 在 7 月 还 没有 提交 报告 的 老师 。 

11. 你 认为 学 生 和 老师 的 信息 (例如 名 字 、 地 址 、 电 话 和 邮件 ) 应 当 保 存在 哪里 ? 写 出 必要 的 SQL 命 

12. 列 出 所 有 在 六 月 活跃 的 学 生 的 名 字 (如 果 你 确定 建立 了 原型 数据 库 ， 则 修改 名 字 和 其 他 数据 )， 包 
括 学 生 接 受 教学 的 小 时 数 和 他 们 完成 的 课程 数 。 

13. 哪些 教师 可 以 教学 ? 列 出 他 们 的 名 字 。 写 出 SQL 命令 。 

14. 需要 提醒 哪个 教师 上 交 报 告 ? 写 出 SQL 命令 。 使 用 Venn 或 其 他 类 型 的 图 表明 怎样 建立 查询 。 
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28 . 


30. 


3 ， 
pp 


33. 
34. 
$3. 


36. 
es 


问题 与 练习 15 一 44 基于 完整 的 (“大 ”版 本 ) Pine Valley 家 上 有 具 公司 数据 库 。 注 意 : 基于 你 使 用 
的 DBMS， 一 些 字段 的 名 字 要 改变 以 避免 与 DBMS 中 的 保留 词 冲突 。 当 你 第 一 次 使 用 DBMS 时 ， 
检查 表 的 定义 ， 看 你 的 DBMS 使 用 的 是 什么 字段 名 。 该 数据 库 在 www:teradatauniversitynetwork. 
com 上 可 查 到 。 


. 写 出 SQL 命令 找 出 没有 下 订单 的 所 有 客户 。 


列 出 所 有 管理 的 员工 数 多 于 两 个 的 经 理 的 名 字 和 管理 的 员工 数目 (这 个 值 记 为 HeadCount)。 


. 列 出 所 有 出 生 早 于 他 们 的 经 理 的 员工 的 名 字 、 他 或 她 的 出 生日 期 、 他 或 她 的 经 理 的 名 字 以 及 经 理 


的 出 生日 期 ; 经 理 的 数据 标记 为 Manager 和 ManagerBirth。 使 用 Venn 或 其 他 类 型 的 图 说 明 怎 样 
建立 这 个 查询 。 


. 写 SQL 命令 显示 一 些 特别 客户 的 订单 号 、 客 户 号 码 、 订 单 日 期 和 预订 的 条 目 。 

. 写 SQL 命令 显示 订单 1 预订 的 项 目 、 它 的 标准 价格 和 每 个 预订 项 目的 总 价格 。 

. 写 SQL 命令 ， 计 算 订 单 1 的 总 费用 。 

.计算 每 个 产品 的 总 的 原材料 的 费用 ( 记 为 TotCost) 并 与 它 的 标准 产品 价格 相 比 。 结 果 中 显示 产品 


ID 、 产 品 描述 、 标 准 价格 和 总 费用 。 


， 对 每 个 接收 的 订单 ， 显 示 订 单 ID 、 订 单 还 未 支付 的 钱 的 数目 《可 能 需要 从 一 个 或 更 多 的 表 中 计算 


出 这 个 总 数 ; 结果 标记 为 TotalDue)、 收 到 的 订单 支付 的 钱 的 数目 〈 假 设 每 个 订单 只 有 一 次 支付 ) 。 
为 了 使 这 个 查询 简单 一 点 ， 不 需要 包 插 还 没有 支付 的 订单 。 以 总 从 款 和 支付 数量 之 间 的 差 值 降序 
列 出 结果 。 


. 写 SQL 查询 列 出 买 电 脑 桌 的 客户 和 卖 给 每 个 客户 的 数目 。 使 用 Venn 或 其 他 类 型 的 图 说 明 怎 样 建 


立 这 个 查询 。 


， 以 字母 序列 出 使 用 技能 ID BS12 管理 员工 的 经 理 的 名 字 ; 每 个 经 理 的 名 字 只 列 出 一 次 ， 即 使 他 使 


用 这 个 技能 管理 多 个 员工 也 如 此 。 


显示 每 个 销售 员 的 名 字 、 产 品 材 质 和 每 个 销售 员 卖 出 的 每 个 产品 数量 ( 记 为 TotSales ) 。 


写 出 查询 列 出 每 个 工作 中 心 生 产 的 产品 数目 ( 记 为 TotalProducts)。 如 果 某 个 工作 中 心 没有 生产 任 
何 产品 ， 显 示 结 果 数 目 为 0。 


. 在 PVFC 的 产品 经 理 正 关注 用 户 拥 有 的 产品 的 购买 部 分 的 支持 。 他 想 做 一 个 简单 的 分 析 来 确定 对 


每 个 客户 有 多 少 个 销售 商 与 这 个 客户 在 同一 个 州 。 使 用 名 字 列 出 所 有 了 PVFC 客户 和 与 该 客户 在 同 
一 个 州 的 销售 商 的 数目 。( 计 算 结果 标记 为 NumVendors。 ) 

显示 在 订单 上 没有 任何 支付 的 客户 的 订单 ID。 在 查询 中 使 用 集合 命令 UNION 、INTERSECT 或 
MINUS., 

显示 有 客户 居住 但 是 没有 销售 员 居 住 的 州 的 名 字 。 有 多 种 方式 写 这 个 查询 ， 试 试 不 用 WHERE 语 
句 写 这 个 查询 。 用 两 种 方式 写 这 个 查询 : 使 用 集合 命令 UNION、INTERSECT 或 MINUS ; 不 使 
用 这 些 命令 。 对 你 来 说 哪个 是 更 自然 的 方式 ， 为 什么 ? 

写 SQL 查询 产生 所 有 产品 (也 就 是 产品 描述 ) 的 列表 和 每 个 产品 被 预订 的 次 数 。 使 用 Venn 或 其 
他 图 说 明 建 立 查 询 的 过 程 。 

显示 所 有 客户 订单 的 客户 ID 、 名 字 和 订单 ID。 对 没有 订单 的 客户 只 在 结果 中 显示 一 次 。 
显示 不 拥有 技能 Router 的 员工 的 EmployeeID 和 EmployeeName。 以 EmployeeName 的 顺序 显示 
结果 。 使 用 Venn 或 其 他 图 说 明 构 建 查询 的 过 程 。 

显示 客户 16 的 名 字 和 与 客户 16 有 相同 邮政 编码 的 所 有 客户 的 名 字 。( 确 定 查询 对 任何 客户 都 有 用 。) 
对 所 有 客户 重 写 问题 与 练习 33 的 答案 ， 而 不 仅仅 是 客户 16。 

显示 所 有 客户 订单 的 客户 ID 、 名 字 和 订单 ID。 对 没有 订单 的 客户 在 结果 中 只 显示 一 次 并 显示 其 
订单 ID 为 0。 

显示 所 有 在 同一 个 订单 中 同时 订购 ID 为 3 和 4 的 产品 的 客户 的 客户 ID 和 名 字 。 

显示 订购 过 (在 相同 或 不 同 的 订单 中 ) ID 为 3 和 4 的 产品 的 客户 的 名 字 。 
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38. 复习 7.1.7 节 的 第 一 个 查询 。 能 和 否 给 出 一 个 特殊 的 标准 价格 集合 使 得 该 查询 不 可 能 产生 想 要 的 续 


果 ? 怎样 重 写 查 询 来 处 理 这 个 情况 ? 


39. 写 SQL 查询 列 出 订单 数量 多 于 产品 平均 订单 数量 的 所 有 订单 的 号 码 和 订单 数量 。( 提 示 : 这 涉及 


使 用 关联 子 查 询 .) 
40. 写 SQL 查询 列 出 卖 掉 最 多 电脑 桌 的 销售 员 ， 


41. 以 产品 ID 的 顺序 列 出 产品 ID 和 购买 了 最 多 该 产品 的 客户 预订 的 该 产品 的 总 数量 ; 在 FROM 子 句 


中 使 用 导出 表 来 写 这 个 查询 。 


42， 显 示 每 个 州 中 比 在 该 州 中 最 近 雇 佣 的 员工 更 早 的 所 有 员工 的 员工 信息 。 

43. 市 场 部 的 领导 对 产品 的 交叉 销售 机 会 比较 感 兴趣 。 她 认为 识别 交叉 销售 机 会 的 方法 是 知道 对 每 个 
产品 在 相同 的 订单 中 有 多 少 其 他 产品 被 卖 给 相同 的 客户 〈 例 如， 一 个 与 很 多 其 他 产品 在 同一 个 订 
单 中 被 客户 一 起 购买 的 产品 要 比 被 单独 购买 的 产品 是 交叉 销售 的 更 好 的 候选 者 )。 
a. 为 帮助 市 场 部 经 理 ， 首 先 列 出 所 有 订单 中 销售 总 量 超过 20 个 的 所 有 产品 的 ID。( 这 些 热 门 产 品 
也 是 她 考虑 作为 潜在 交叉 销售 的 触发 句 的 产品 -) 
b. 写 一 个 新 的 查询 列 出 包括 满足 第 一 个 查询 的 产品 的 订单 的 ID 和 这 些 订单 中 的 产品 数量 。 只 有 有 
3 个 或 更 多 产品 的 订单 对 市 场 部 经 理 来 说 才 有 意义 。 尽 可 能 写 出 覆盖 第 一 个 查询 所 有 答案 的 通 
用 查询 。 也 即 ， 如 果 产 品 X 是 在 来 自 a 部 分 结果 集 的 一 个 产品 ， 那 么 在 b 部 分 也 想 要 看 到 包括 


产品 X 的 所 有 订单 的 订单 信息 。 


c. 市 场 部 经 理 需要 知道 在 b 部 分 的 结果 中 的 订单 上 的 其 他 产品 。( 再 一 次 ， 写 一 个 查询 得 到 b 部 
分 的 普遍 查询 结果 ， 而 不 是 特殊 的 。) 这 些 是 卖 出 的 产品 ， 例 如 ,来 目 a 部 分 的 产品 X， 如 果 这 
些 是 人 们 丑 了 的 产品 ， 可 以 试 着 向 他 们 交叉 售卖 产品 X， 因 为 历史 显示 他 们 可 能 把 它 和 其 他 产 
品 一 起 买 。 写 一 个 查询 找 出 其 他 产品 的 ID 和 描述 。 在 你 的 结果 中 可 以 包括 “产品 X”( 也 就 是 ， 


不 需要 排除 a 部 分 的 结果 中 的 产品 )。 


44. 使 用 关联 子 查询 ， 对 每 个 产品 ， 以 产品 ID 升序 显示 产品 ID 和 描述 ， 并 显示 购买 最 多 该 产品 的 客 
户 ID 和 名 字 ， 也 显示 客户 (购买 最 多 该 产品 的 客户 ) 预订 的 总 数量 。 
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Web 资源 


www.ansi.org 美国 国家 标准 协会 (American National Standards Institute) 的 网 址 。 它 包含 ANSI 联盟 
和 最 新 国家 和 国际 标准 的 信息 。 

www.coderecipes .net 解释 和 显示 大 量 SQL 命令 示例 的 网 址 。 

www.fluffycat.com/SQL/ ”定义 样 例 数据 库 和 显示 在 该 数据 库 上 的 SQL 查询 示例 的 网 址 。 

www.iso.ch ”国际 标准 化 组 织 (ISO) 的 网 址 ， 提 供 ISO 的 信息 ， 现 行 标准 的 副本 可 以 从 这 里 购买 。 

www.sqlcourse.com 和 www.sqlcourse2.com 提供 ANSI SQL 子 集 的 教程 并 有 练习 数据 库 的 网 址 。 

standards.ieee.org IEEE 标准 组 织 的 主页 。 

www.tizag.com/sqlTutorial/ ”提供 SQL 理念 和 命令 的 教学 集合 的 网 址 。 

http://troelsarvin .blogspot.com/ ”提供 不 同 SQL 实现 的 详细 比较 的 博客 ， 包 括 DB2、Microsoft SQL 、 
MySQL 、Oracle 和 PostGreSQL 。 

www.teradatauniversitynetwork.com 在 这 个 网 站 上 ， 你 的 指导 教师 可 能 已 经 为 你 创建 了 一 些 课 程 
环境 ， 提 供 使 用 Web 版 本 的 Teradata SQL 助手 ， 使 用 本 书 中 的 一 个 或 多 个 Pine Valley Furniture 和 
Mountain View Community Hospital 数据 集 。 
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Essentials of Database Management 


数据 库 应 用 开发 


学 习 目 标 

学 完 本 章 后 ， 读 者 应 该 能 够 : 

e 准确 定义 以 下 关键 术语 : 客户 端 /服务 器 系统 ， 应 用 划分 ， 胖 客户 端 ， 数 据 库 服务 
器 ， 中 间 件 ， 应 用 程序 接口 (API)， 开 放 式 数据 库 连 接 (ODBC)， 三 层 体 系 结构 ， 
瘦 客 户 端 ，Java servlet， 可 扩展 标记 语言 (XML )，XML 结构 定义 (XSD )，XPath ， 
XQuery， 可 扩展 样式 表 转 换 语言 (XSLT)，Web 服务 ， 通 用 描述 、 发 现 (Discovery ) 
与 集成 (UDDI)，Web 服务 描述 语言 ( WSDL)， 简 单 对 象 访问 协议 ( SOAP) 和 面向 
服务 的 体系 结构 (SOA )。 

理解 客户 端 /服务 恬 系 统 的 三 个 组 成 部 分 : 数据 表示 服务 、 数 据 处 理 服 务 以 及 数据 存 
储 服 务 。 

区 分 二 层 和 三 层 体 系 结构 。 

描述 在 二 层 体 系 结构 应 用 中 采用 VB.NET 和 Java 程序 连接 数据 库 的 过 程 。 

描述 Web 应 用 的 关键 组 件 以 及 各 组 件 之 间 的 信息 通信 方式 。 

描述 在 三 层 体系 结构 Web 应 用 中 用 JSP (Java Server Pages) 和 ASPNET 程序 连接 数 
据 库 的 过 程 。 

理解 XML 的 意义 以 及 XML 在 互联 网 标准 化 数据 交换 中 的 作用 。 

理解 如 何 用 XQuery 查询 XML 文档 。 

e 理解 XML 如 何 促进 Web 服务 的 传播 以 及 如 何 产 生 面 向 服务 的 体系 结构 。 

引言 


客户 端 / 服务 器 系统 在 网 络 环境 中 运行 ， 应 用 程序 处 理 被 拆 分 为 前 端 客户 端 和 后 端 处 理 


器 两 部 分 。 一 般 来 说 ， 客 户 端 处 理 请 求 服务 器 提供 的 资源 。 客 户 端 与 服务 器 可 以 配置 在 同一 
台电 脑 上 ， 也 可 以 在 不 同 的 电脑 上 进行 配置 ， 通 过 网 络 互通 合作 。 不 管 是 客户 端 还 是 服务 器 
都 是 智能 的 和 可 编程 的 ， 所 以 根据 两 者 的 计算 能 力 ， 可 以 设计 有 效 甚 至 高 效 的 应 用 。 

过 去 20 年 ， 很 难过 高 评价 客户 端 /服务 器 应 用 产生 的 巨大 影响 。 随 着 个 人 计算 机 技术 
的 进步 、 计 算 机 图 形 用 户 界 面 (GUI) 以 及 网 络 、 通 信 的 迅速 发 展 ， 使 用 计算 机 系统 的 业务 
也 发 生 了 改变 ， 以 满足 用 户 日 益 增 长 的 业务 需求 。 电 子 商 务 要 求 客户 端 浏 览 器 可 以 访问 动态 
Web 页 面 ， 这 些 页 面 连接 到 可 以 提供 实时 信息 的 数据 库 。 通 过 网 络 连接 的 个 人 计算 机 一 般 都 
支持 工作 组 计算 。 为 了 能 在 客户 端 / 服务 器 环境 运行 并 获取 个 人 计算 机 和 工作 站 网 络 更 大 的 
经 济 效益 ， 主 机 应 用 程序 需要 被 重 写 。 客 户 端 / 服务 器 结构 因 其 灵活 性 、 伸 缩 性 (无 须 重新 
设计 即 可 升级 系统 的 能 力 ) 和 可 扩展 性 (定义 新 数据 类 型 和 操作 的 能 力 ) 为 特定 的 业务 环境 
提供 更 优秀 的 解决 方案 。 


客户 端 /服务 器 体系 结构 
客户 端 /服务 器 体系 结构 可 以 通过 应 用 逻辑 组 件 在 客户 端 和 服务 器 中 的 分 布 来 区 分 。 应 
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用 逻辑 有 3 个 组 件 组 成 ( 见 图 8-1 )。 第 一 部 分 是 输入 /输出 (1/0) 组 件 ， 或 表示 逻辑 组 件 ， 
主要 负责 数据 的 格式 化 并 将 数据 展示 在 用 户 电脑 屏幕 上 或 输出 到 其 他 
输出 设备 ， 并 管理 用 户 利用 键盘 或 其 他 输入 设备 输入 的 数据 。 表 示 逻 
辑 一般 驻 留 在 客户 端 ， 是 用 户 与 系统 交互 的 机 制 。 第 二 部 分 组 件 是 逻 
辑 处 理 组 件 ， 负 责 处 理 数据 逻辑 、 业 务 规则 逻辑 和 数据 管理 逻辑 。 数 
据 处 理 逻 辑 包括 数据 校 验 和 错误 处 理 标识 等 活动 。 在 数据 库 管 理 系统 
(DBMS ) 中 如 果 还 没有 对 业务 规则 进行 编码 ， 可 以 在 处 理 组 件 中 进行 
编码 。 数 据 逻 辑 对 处 理事 务 或 查询 所 必需 的 数据 进行 标识 。 处 理 逻 辑 
可 以 驻 留 在 客户 端 和 服务 器 中 。 第 三 种 组 件 是 存储 组 件 ， 主 要 负责 从 
与 应 用 相关 联 的 物理 存储 设备 上 进行 数据 的 存储 及 检索 。 存 储 逻 辑 一 
般 驻 留 在 接近 数据 物理 存储 位 置 的 数据 库 服务 器 中 。DBMS 的 部 分 操 
作 在 存储 人 逻辑 组 件 中 进行 。 例 如 ， 数 据 完整 性 通常 控制 约束 检验 等 操 图 8-1 应 用 逻辑 组 件 
作 。 触 发 器 一 般 在 满足 特定 的 条 件 时 ， 会 运行 与 之 相关 联 的 插入 、 修 改 、 更 新 和 删除 命令 ， 
存储 过 程 一 般 可 以 直接 使 用 存储 在 数据 库 服 务 器 上 的 数据 。 

客户 端 / 服务器 体系 结构 一 般 归 为 三 类 : 两 层 、 三 层 或 多 层 体 系 结构 ， 依 赖 于 三 种 应 用 
逻辑 的 结构 布局 而 定 。 目 前 为 止 ,还 没有 一 个 最 佳 的 客户 端 / 服务 器 体系 结构 能 够 解决 所 有 
的 业务 问题 。 但 是 客户 端 / 服务 器 体系 结构 内 在 的 灵活 性 提供 了 剪裁 配置 的 能 力 ， 可 以 满足 
组 织 中 的 特殊 处 理 需求 。 应 用 划分 有 助 于 应 用 环境 配置 的 剪裁 。 

图 8-2a 描述 了 基于 逻辑 处 理 布局 的 三 种 常用 的 二 层 系 统 的 配置 。 在 胖 客 户 端 中 ， 应 用 
处 理 全 部 在 客户 端 进行 ， 而 在 瘦 客 户 端 中 ， 应 用 处 理 主要 在 服务 器 上 进行 。 在 分 布 式 结构 
中 ， 应 用 处 理工 作 将 在 客户 端 和 服务 器 间 进 行 划 分 。 

图 8-2b 展示 了 典型 的 三 层 和 多 层 体系 结构 的 配置 。 这 些 体系 结构 类 型 是 基于 Web 系统 
开发 的 常见 结构 。 如 二 层 系 统 中 ， 部 分 处 理 逻 辑 可 以 在 客户 端 进 行 。 但 在 Web 驱动 的 客户 
端 / 服 务 器 环境 中 典型 的 客户 端 应 该 是 一 个 瘦 客 户 端 ， 通 过 浏览 器 实现 表示 逻辑 。 中 间 层 主 
要 采用 具备 可 移植 性 的 语言 编写 ， 如 CC 或 Java。n 层 体系 结构 因 其 灵活 性 和 易 管 理性 而 逐渐 
流行 ， 尽 管 同时 也 增加 了 各 层 之 间 通 信 管 理 的 复杂 性 。 更 新 快 、 分 布 式 、 异 构 环境 的 互联 网 
和 电子 商务 项 目的 发 展 同时 促进 了 n 层 体 系 结构 的 发 展 。 
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前 面 对 不 同类 型 的 客户 端 / 服 务 器 体系 结构 的 优 缺 点 进行 了 对 比 ， 接 下 来 的 两 节 将 通过 
具体 示例 阐述 数据 库 在 这 些 体系 结构 类 型 中 的 作用 . 


8.2 二 层 体系 结构 中 的 数据 库 


在 二 层 体 系 结 构 中 ， 客 户 端 工作 站 负责 管理 用 户 界 面 ， 包 括 表 示 逻 辑 、 数 据 处 理 逻 辑 和 
业务 规则 逻辑 ， 而 数据 库 服务 器 负责 数据 库存 一 
储 、 访 问 和 处 理 。 图 8-3 展示 了 一 个 典型 的 数据 
库 服 务 器 体系 结构 。 随 着 数据 库 服务 器 上 安装 
越 来 越 多 的 DBMS， 局 域 网 (CLAN) 通信 量 减 
少 ， 因 为 只 有 那些 满足 请 求 标准 的 记录 才 被 传 
输 至 客户 端 工作 站 ， 而 不 是 传输 整个 数据 文件 。 
人 们 习惯 将 核心 DBMS 功能 称 为 后 端 功 能 ， 而 
将 客户 端 PC 上 的 应 用 程序 称 为 前 端 程序 。 
根据 这 种 体系 结构 ， 只 有 数据 库 服 务 器 需要 
县 备 处 理 数据 库 的 能 力 ， 并 且 将 数据 库存 储 在 服 
务 器 上 ， 而 不 是 客户 端 。 因 此 ， 数 据 库 服务 器 可 图 8-3 ”数据库 服务 器 体系 结构 (二 层 体系 结构 ) 
以 调整 以 优化 数据 库 处 理性 能 。 因 为 局 域 网 发 送 的 数据 量 越 少 ， 通 信 的 负载 压力 越 小 。 用 户 认 
证 、 完 整 性 校 验 、 数 据 字 典 的 维护 、 查 询 以 及 更 新 处 理 都 在 数据 库 服务 器 的 同一 个 位 置 上 进行 。 
使 用 二 层 体 系 结构 的 客户 端 / 服 务 器 项 目 一 般 用 于 用 户 数 相 对 较 少 的 部 门 应 用 。 这 种 应 
用 不 是 那么 至 关 重 要 ， 事 务 量 较 低 时 多 数 是 成 功 的 ， 对 实时 性 、 安 全 性 要 求 都 不 高 。 但 是 公 
司 希 望 寻 求 获 得 更 多 客户 端 /服务 器 项 目的 益处 ， 如 可 伸缩 性 、 灵 活性 、 低 成 本 等 。 这 样 ， 





可 
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就 必须 开发 新 的 客户 端 / 服务 器 体系 结构 来 满足 应 用 需求 。 

大 多 数 的 二 层 体系 结构 应 用 都 用 类 似 于 Java、VB.NET 或 C# 等 编程 语言 编写 。 这 些 常 
见 的 编程 语言 编写 的 应 用 与 数据 库 的 连接 都 由 一 种 被 称 为 面向 数据 库 的 中 间 件 的 特殊 软件 来 
实现 。 中 间 件 一 般 起 到 使 客户 端 / 服务 器 应 用 协调 工作 的 作用 。 中 间 件 用 于 描述 n 层 体 系 结 
构 中 PC 客户 端 和 关系 数据 库 之 间 的 软件 组 件 。 简 而 言 之 ， 中 间 件 是 一 种 可 以 使 不 同 的 软件 
组 和 应 用 相互 操作 的 软件 ,无须 用 户 了 解 ， 并 且 用 较 简单 代码 即 可 实现 互通 操作 (Hurwiz， 
1998 )。 应 用 连接 到 数据 库 所 需 的 数据 库 中 间 件 由 两 部 分 组 成 : 应 用 编程 接口 (API) 和 连接 
指定 类 型 数据 库 的 数据 库 驱 动 (例如 ，SQL 服务 器 或 Oracle)。 最 常见 的 API 是 开放 式 数据 
库 连 接 (ODBC) 和 微软 平台 的 ADO.NET (VB.NET 和 C#) 以 及 Java 程序 中 使 用 的 Java 数 
据 库 连接 (JDBC ) 。 

无 论 采 用 哪 种 API 或 者 编程 语言 ， 从 应 用 访问 数据 库 的 基本 步骤 都 比较 相似 ， 如 下 所 述 : 

1 ) 标识 并 注册 数据 库 驱 动 。 

2 ) 打开 到 数据 库 的 连接 。 

3 ) 执行 数据 库 的 查询 。 

4 ) 处 理 查询 结果 。 

5 ) 必要 时 重复 步骤 3 一 4。 

6 ) 关闭 数据 库 连 接 。 


8.2.1 VB.NET 例子 


接 下 来 ,看 一 下 上 述 步骤 在 一 个 简单 的 VB.NET 应 用 中 是 如 何 发 挥 作用 的 。 图 8-4 所 示 
代码 片段 的 作用 是 向 学 生 数据 库 中 插 人 一 条 新 记录 。 为 了 表示 的 简洁 ， 代 码 中 没有 显示 错误 
处 理 的 相关 部 分 。 此 外 ， 虽 然 在 下 面 的 代码 中 藤 入 了 数据 库 连 接 密码 ， 但 是 在 商业 应 用 中 则 
要 通过 其 他 机 制 获 取 数 据 库 连接 密码 。 

图 8-4 所 示 的 VB.NET 代码 使 用 了 ADO.NET 数据 访问 框架 和 .NET 数据 提供 商 连 接 数 
据 库 。.NET 框架 有 不 同 的 数据 提供 商 (或 者 说 是 数据 库 驱 动 ) 可 以 文 持 开发 人 员 通过 .NET 
编程 语言 编写 程序 连接 数据 库 。 框 架 中 常见 的 数据 提供 商 有 SQL server 和 Oracle。 

图 中 的 VB.NET 代码 显示 了 在 Oracle 数据 库 中 如 何 实现 一 个 简单 的 INSERT (插入 ) 语 
句 。 图 8-4a 中 的 VB.NET 代码 显示 创建 了 一 个 简单 的 表单 ， 允 许 用 户 输入 自己 的 姓名 、 院 系 
编号 和 学 号 。 图 8-4b 显示 了 连接 数据 库 的 详细 步骤 以 及 如 何 提交 一 个 数据 插入 的 查询 语句 。 

通过 阅读 图 中 文本 框 中 的 注释 ， 可 以 看 出 之 前 章节 描述 的 访问 数据 库 的 一 般 步骤 贯 
穿 了 整个 VB.NET 程序 的 实施 过 程 。 图 8-4c 展示 了 如 何 访问 数据 库 和 处 理 SELECT 查询 
的 结果 。 最 主要 的 区 别 是 用 ExecuteReader0 方法 代替 了 ExecuteNonQuery() 方法 ， 后 者 
主要 用 于 INSERT、UPDATITE 和 DELETE 查询 。 表 中 显示 的 结果 通过 SELECT 查询 中 的 
OracleDataReader 对 象 获取 。 可 通过 每 次 一 行 遍历 对 象 的 方式 访问 结果 中 的 行 。 通 过 Get 方 
法 和 参照 查询 结果 中 列 的 位 置 (或 名 称 ) 访问 对 象 中 的 每 一 列 数据 。ADO.NET 提供 两 种 可 
选 的 处 理 查 询 结果 的 对 象 : DataReader (例如 ,图 8-4c 中 的 OracleDataReader) 和 DataSet 
对 象 。 两 种 对 象 的 主要 区 别 是 : 前 者 限制 查询 结果 必须 一 次 一 行 通过 循环 进行 查询 。 如 果 有 
大 量 的 行 数据 ， 这 种 查询 方法 会 非常 复杂 。DataSet 对 象 提供 数据 库 无 连接 的 快照 ， 可 以 在 
编程 语言 中 应 用 这 些 特性 操控 程序 。 本 章 后 面 将 介绍 如 何 通 过 .NET 数据 控件 (采用 DataSet 
对 象 ) 提供 清晰 、 简 单 的 方法 在 程序 中 操控 数据 。 
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Opition Explicit On 


Imports System 这 两 个 import 语句 人 允许 VBNET 
Imports System.Data 数据 库 函 数 调 用 import 包 中 的 程序 
Imports System.Data.OracleClient 


允许 把 .NET 数据 提 
Public Class InsertForm 供给 Oracle 数据 库 


Private Sub Button1_Click (ByVal sender As System.Object, ByVal e As 


System.EventArgs) Handles Button1.Click 
Dim name As String = TextBox1.Text 从 TextBoxl 中 检索 名 称 值 


Dim deptno As String = TextBox2.Text 从 TextBox2 中 检索 部 门 号 的 值 
Dim studentid As String = TextBox3.Text 
从 TextBox3 中 检索 学 生 ID 号 的 值 


a) 接收 用 户 输入 的 设置 方法 


Dim conn As New OracleConnection Oracle 数据 库 


Dim cmdQuery As String 


| 


conn.ConnectionString = "User ld=nisubram;Password=nisubram; 
DataSource=oed1;” 


cmdQuery = "INSERT INTO Student (name,deptno,student id) VALUES ('" & name 


&"'…"&deptno 通过 值 设 置 ， 在 不 同 的 文本 框 中 构造 有 效 





的 SQL INSERT 查询 


&"',"& studentid &”) 


Dim cmd As OracleCommand = New OracleCommand(cmdQuery) INSERT 查询 的 值 用 
来 初始 化 新 变量 的 值 


cmd.Connection = conn 





建立 与 数据 库 的 连接 ， 使 用 ConnectionString 中 规 
定 的 细节 


cmd.Connection = conn 把 连接 分 配给 当前 需要 执行 的 SQL 命令 对 象 


Dim returnvalue As Integer 





conn.Open() 


returnvalue = cmd.ExecuteNonQuery() 


Label4 Text = "Success" 执行 INSERT 查询 ， 如 果 择 入 成 功 ，returnvalue 
将 返回 一 个 大 于 0 的 值 


conn.Close() 


End Sub 
Private Sub InsertForm_ Load(ByVal sender As System.Object, ByVal e As 


System.EventArgs) Handles MyBase.Load 
End Sub 
End Class 
b) 连接 到 数据 库 并 执行 INSERT 查询 


图 8-4 在 VB.NET 代码 中 数据 库 INSERT 操作 演示 示例 
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Dim queryReader As OracleDataReader 


cmdQuery = “Select * from Student 构造 一 个 有 效 的 SQL SELECT 查询 


queryReader = cmd.ExecuteReader() 









执行 SELECT 查询 。 结 果 存 储 在 
OracleDataReader 对 象 中 


Console.WriteLine(myReader.GetString(0)) 


While queryReader Read() 


End While 


同时 处 理 一 行 的 结果 。GetString(0) 指 的 
是 结果 表 中 的 第 一 列 
c) SELECT 查询 代码 示例 


图 8-4 ( 续 ) 


queryReader.Close!() 


8.2.2 Java 例子 


现在 来 看 一 个 如 何 让 Java 应 用 连接 到 数据 库 的 例子 (参见 图 8-5 )。 这 个 Java 应 用 实际 
上 和 图 8-4 中 VB.NET 应 用 连接 的 是 同一 个 数据 库 ， 其 目的 是 检索 并 输出 学 生 〈 Student) 表 
中 的 所 有 学 生 姓名 。 在 这 个 例子 中 ，Java 程序 使 用 JDBC 的 API 接口 和 Oracle 的 瘦 驱 动 程 
序 访问 Oracle 数据 库 。 









import java.sql.”; 
public class TestJDBC { 
try { 注册 驱动 程序 
Driverd = 
(Driver)Class.forNamel("oracle.jdbc.driver.OracleDriver ).newlnstance( ); 
DriverManager.registerDriver (new oracle.jdbc.driver.OracleDriver( )); 标识 使 用 的 驱动 程序 类 型 
Connection conn= 
521:OED1”, args[0], args[1]); 
i | 
Statement st = conn.createStatement( ); 声明 可 以 对 数据 库 查 询 的 语句 变量 
while(rec.next( )){ 
System.out.printin(rec.getString("name")),} 


public static void main(String[ ] args){ 

System.out.printin(d); 

DriverManager.getConnection ("jdbc:oracle:thin:@durga.uits.indiana.edu:1 
ResultSet rec = st.executeQuery("SELECT * FROM Student ); 
conn.close( ); 






发 布 查 询 并 返回 结果 





catch (Exception eX 
System.out.printin("Error 一 "+ e); 
} 
} 
} 


一 次 一 行 地 处 理 结果 


图 8-5 通过 Java 程序 访问 数据 库 


注意 , 与 VB.NET 示例 中 所 示 的 INSERT 语句 不 同 ， 运 行 一 个 SQL SELECT 语句 需要 
捕获 对 象 内 部 数据 来 处 理 表 格 中 的 数据 。JDBC 提供 了 两 种 关键 机 制 来 处 理 表格 : ResultSet 
对 象 和 RowSet 对 象 。 两 者 之 间 的 区 别 类似 于 在 VB.NET 例子 中 的 DataReader 和 DataSet 对 
象 之 间 的 区 别 。 
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ResultSet 对 象 提供 游标 机 制 ， 指 向 当前 数据 行 。 当 ResultSet 对 象 被 初始 化 时 ， 游 标定 
位 在 第 一 行 之 前 。 这 就 是 为 什么 在 检索 数据 前 需要 先 调 用 next() 方法 的 原因 。ResultSet 对 象 
用 于 循环 处 理 每 一 行 数据 并 且 检 索 需 要 访问 的 列 值 。 在 这 种 情况 下 ， 用 JDBC API 中 的 rec. 
getString 方法 访问 姓名 列 的 值 。 对 于 一 般 数 据 库 类 型 ， 有 相应 的 get 和 set 方法 允许 对 数据 
库 中 的 数据 进行 检索 和 存储 。 表 8-1 提供 一 些 SQL-to-Java 上 映射 的 常见 表达 。 
表 8-1 Java 到 SQL (Java-to-SQL ) 常用 映射 


SQL 类 型 Get/Set 常用 方法 
INTEGER nt getInt(), setInt() 
CHAR getString, setString() 
VARCHAR getString, setString() 
DATE getDate(), setDate() 
TIME getTime(), setTime() 
TIMESTAMP getTimestamp(), setTimestamp!() 


需要 注意 的 是 ResultSet 对 象 能 否 保 持 对 数据 库 的 有 效 连 接 ， 这 取决 于 表 的 大 小 ， 整 个 
表 ( 即 ， 查 询 结果 ) 可 以 (或 不 可 以 ) 存储 在 客户 端 设备 。 数 据 如 何 及 何 时 在 数据 库 和 客户 
端 之 间 传 输 由 Oracle 驱动 处 理 。 默 认 情 况 下 ,ResultSet 对 象 是 只 读 属 性 ， 并 且 只 能 在 一 
方向 (向 前 ) 进行 遍历 。 然 而 ， 新 版 本 的 ResultSet 对 象 允 许 在 两 个 方向 上 滚动 和 更 新 。 


8.3 三 层 体 系 结构 


一 般 来 讲 ， 三 层 体 系 结构 比 之 前 提 到 的 客户 端 和 数据 库 服 务 右 层 ( 参 见 图 8-6 ) 又 附加 
一 个 服务 响 层 。 这 样 的 配置 也 被 称 为 n 
层 、 多 层 或 增强 的 客户 端 / 服 务 器 体系 结 
构 。 这 个 附加 的 服务 器 层 在 三 层 体系 结构 
中 可 以 用 于 不 同 的 目的 。 通 常 ， 应 用 程序 
可 以 在 附加 服务 右上 驻 留 并 运行 ， 在 这 种 
情况 下 ， 附 加 服务 需 被 称 为 应 用 服务 大 。 
或 者 当 另 一 个 服务 器 承载 企业 数据 库 时 ， 
附加 服务 器 承载 本 地 数据 库 。 这 种 配置 可 
以 称 为 三 层 体系 结构 ， 由 于 每 个 配置 性 能 
不 同 ， 所 以 要 根据 不 同 的 情况 进行 合理 的 
配置 。 三 层 体 系 结构 相 比 于 二 层 体系 结构 
的 主要 优点 是 在 扩展 性 、 灵 活性 、 表 现 性 
和 可 重用 性 上 有 所 体现 ， 对 网 络 应 用 程序 
和 网 络 为 中 心 的 信息 系统 开发 来 说 ， 三 层 体系 结构 是 非常 受 欢 迎 的 选择 。 这 些 优点 在 后 面 的 
章节 有 详细 的 讨论 。 
在 三 层 体系 结构 中 ， 大 多 数 的 应 用 程序 代码 存储 在 应 用 服务 器 上 。 这 种 情况 与 二 层 体系 
结构 中 将 存储 过 程 存 人 数据 库 服 务 器 上 的 功能 等 价 。 利 用 应 用 服务 器 ,通过 使 用 机 器 代码 
可 提高 性 能 ， 灵 活 的 代码 可 以 应 用 到 其 他 平台 ， 从 而 减少 了 对 专 有 语言 的 依赖 。 在 许多 情况 


客户 端 层 


图 8-6 通用 三 层 体 系 结构 
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下 ,大 多 数 的 业务 处 理 是 在 应 用 服务 器 上 而 不 是 在 客户 端 工作 站 或 数据 库 服务 器 上 ， 从 而 产 
生 了 瘦 客 户 端 。Web 浏览 器 的 使 用 就 是 一 个 瘦 客 户 端 的 实例 。 一 般 情 况 下 ， 应 用 驻 留 在 服务 
船上 并 在 服务 器 上 执行 ， 不 需要 把 应 用 下 载 到 客户 端 。 因 此 ， 升 级 应 用 程序 不 需要 在 客户 端 
工作 站 ， 而 只 需要 在 应 用 服务 器 上 加 载 新 版 本 即 可 。 

现代 组 织 中 最 常见 的 三 层 
体系 结构 应 用 是 基于 Web 的 
应 用 。 因 特 网 或 内 联网 可 以 访 
问 这 些 应 用 。 图 8-7 表示 建立 


因特网 和 内 联网 数据 库 驱动 能 z | 
的 连通 性 所 需 的 基本 环境 。 图 WAWW (TCP/IPp) 
中 右 侧 方 框 里 是 一 个 内 部 网 络 | 

的 示意 图 ， 从 标记 中 可 以 明显 ee 


= | 图 公共 因特网 客户 端 





看 出 客户 端 /服务 器 体系 结构 

的 性 质 。 网 络 结构 使 用 TCP/ 3 

了 建立 客户 端 工作 站 、Web Web 服务 器 数据 库 服务 器 “数据库 
服务 只 和 数据 库 服 务 咒 的 连 组 织 的 内 联网 





接 。 也 使 用 多 层 连接 结构 ， 如 
图 8-7 显示 了 一 个 简单 架构 ， 
来 自 客户 端 浏 览 器 的 请 求 通过 网 络 发 送 至 Web 服务 器 ， 存 储 HTML 脚本 页 面 并 通过 客户 端 浏 
览 大 返回 和 显示 。 如 果 该 请 求 需 要 从 数据 库 中 获取 数据 ，Web 服务 器 将 构建 一 个 查询 并 将 其 
发 送 到 数据 库 服 务 器 ， 数 据 库 服务 器 负责 处 理 查询 并 且 返 回 结果 集 。 同 样 ， 客 户 端 输入 的 数 
据 可 以 通过 Web 服务 顺 传 递 到 数据 库 服 务 器 ， 提 交 数 据 到 数据 库 并 存储 在 数据 库 中 。 

从 公司 外 部 进行 连接 时 与 上 面 所 描述 的 处 理 流程 类 似 。 这 种 情况 下 ， 连 接 是 否 仅 适用 于 
特定 的 客户 或 供应 商 或 其 他 连接 到 互联 网 的 工作 站 。 然 而 ， 对 外 开放 的 Web 服务 器 需要 增 
加 额外 的 数据 安全 措施 。 

在 公司 内 部 ,通常 是 由 DBMS 控制 访问 的 数据 ， 数 据 库 管理 员 设 置 员工 的 数据 访问 权 
限 。 防 火 墙 限 制 外 部 网 络 访问 公司 的 资料 和 数据 以 及 防止 公司 数据 泄露 到 公司 外 部 。 所 有 的 
通信 和 是 通过 组 织 网 络 的 外 部 代理 服务 器 进行 。 代 理 服 务 器 控制 组 织 网 络 的 信息 或 文件 通路 。 
不 需要 连接 到 Web 服务 器 来 显示 页 面 ， 也 可 以 通过 高 速 缓存 保存 被 频繁 请 求 的 页 面 来 提高 
网 站 的 性 能 。 

最 常见 的 三 层 体系 结构 应 用 是 Web 应用， 在 下 一 节 中 ， 将 详细 讨论 Web 应 用 中 的 重要 
组 件 。 本 书 的 例子 中 选择 两 种 常见 的 语言 (JSP 和 ASPNET) 进行 简单 的 Web 应 用 开发 。 


图 8-7 ”数据库 驱动 的 内 联网 / 因特网 环境 


8.4 Web 应 用 组 件 


图 8-2 展示 了 典型 的 Web 应 用 中 的 各 种 组 件 。 一 个 Web 应 用 站 点 需要 四 个 重要 组 件 一 
起 创建 : 

1 ) 数据 库 服务 器 存储 应 用 逻辑 和 DBMS 的 主机 。 常 用 的 DBMS 包括 Oracle、 
Microsoft SQL Server 、Informix 、Sybase、DB2 、Microsoft Access 和 MySQL 等 。DBMS 可 
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以 在 一 台独 立 的 机 器 上 安装 ， 也 可 以 与 Web 服务 器 在 同一 台 机 器 上 安装 。 

2 ) Web 服务 器 ”Web 服务 器 提供 了 接收 和 响应 客户 端 浏 览 器 请 求 的 基本 功能 。 这 些 请 
求 主 要 使 用 HTTP 或 HTTPS 协议 。 最 常见 的 Web 服务 器 软件 是 Apache， 但 也 可 能 经 常见 
到 微软 的 互联 网 信息 服务 器 (IIS) Web 服务 器 。Apache 可 以 在 不 同 的 操作 系统 上 运行 ， 如 
Windows、UNIX 或 Linux。 而 IIS 则 主要 面 回 Windows 服务 帮 。 

3 ) 应 用 服务 器 ”该 软件 提供 了 用 于 创建 动态 Web 网 站 和 基于 Web 的 应 用 的 构建 模块 。 
例如 ， 微 软 的 .NET 架构 、Java 平台 企业 版 (Java EE) 和 ColdFusion。 虽 然 技 术 上 不 必 考 虑 应 
用 服务 平台 ,但 使 用 PHP 、Python 和 Perl 等 应 用 编程 语言 写 的 软件 属于 应 用 服务 器 范畴 。 

4) Web 浏览 器 微软 的 IE、Mozilla 的 Firefox (火狐 )、 苹 果 的 Safari 、 谷 歌 Chrome 
和 Opera 都 是 常用 浏览 锅 的 实例 。 

综 上 所 述 ， 可 用 于 Web 应 用 开发 的 工具 集合 非常 复杂 。 虽 然 图 8-7 给 出 了 该 体系 结构 
的 概述 ， 但 并 没有 描述 把 组 件 组 合 在 一 起 的 正确 方法 。 通 常 ，Web 技术 在 同一 类 项 目 中 可 以 
交替 使 用 。 对 于 一 种 开发 工具 可 以 解决 的 问题 ， 其 他 开发 工具 同样 可 以 解决 。 以 下 是 开发 中 
遇 到 的 常见 组 合 。 

e IIS Web 服务 器 、SQL Server 或 Oracle 作为 DBMS， 用 ASPNET 编写 应 用 程序 。 

e Apache Web 服务 器 、Oracle 或 IBM 作为 DBMS ， 用 Java 编写 应 用 程序 。 

e Apache Web 服务 天 ,Oracle .IJBM 或 SQL Server 中 的 一 个 作为 DBMS， 用 ColdFusion 

编写 应 用 程序 。 

e 对 于 Linux 开源 操作 系统 、Apache Web 服务 器 、MySQL 数据 库 ， 用 PHP、Python 

或 Perl (也 被 称 为 LAMP 栈 ) 编写 应 用 程序 。 

开发 环境 可 能 由 管理 者 决定 ,一 旦 确定 了 要 使 用 的 开发 环境 ， 便 会 有 很 多 选择 可 以 有 效 
地 学 习 甚 至 精通 这 些 工 具 。 管 理 者 可 以 组 织 开 发 者 参加 培训 班 ， 甚 至 聘请 专家 与 开发 者 一 
起 工作 。 通 过 网 络 搜索 或 书店 查阅 ， 可 以 发 现 每 种 特定 的 工具 都 有 一 本 或 多 本 使 用 说 明 书 。 
图 8-8 展示 创建 动态 Web 网 站 的 必要 组 成 部 分 。 





数据 库 ( 可 以 与 Web 服 务 器 共用 同一 台 机 器 进行 开发 )(Oracle， 
Microsoft SQL Server, Informix, Sybase, DB2, Microsoft Access, MySQL…) 


程序 设计 语言 (C, C# Java, XML, XHTML, JavaScript…) 
开发 技术 (ASPNET PHP ColdFusion*…) 
客户 端 插件 (ActiveX, plug-in, cookie) 
Web 浏览 器 (Internet Explorer, Navigator Firefox…) 
文本 编辑 器 (Notepad, BBEdit, vi, Dreamweaver…) 一 
FTP 功能 (SmartFTP FTP Explorer, WS_FTP…) 本 
Web 服务 器 (Apache, Microsoft-IIS) 
服务 器 端 插件 (JavaScript Session Management Service & LiveWireDatabase 
Service, FrontPage Extensions***) 
Web 服务 器 接口 (CGI, APLJava Servlet) 


图 8-8 动态 Web 开发 环境 
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8.5 三 层 应 用 中 的 数据 库 


图 8-9a 展示 了 在 Web 应 用 中 信息 流 的 一 般 概况 。 用 户 提交 的 Web 页 面 请 求 不 能 分 辨 返 
回 的 是 静态 Web 页 面 或 是 由 静态 信息 和 从 数据 库 中 检索 的 动态 信息 组 成 的 混合 Web 页面。 
Web 服务 融 返 回 的 是 一 种 能 够 被 浏览 解析 的 标准 格式 数据 (例如 ，HTML 或 XML )。 

如 图 8-9a 所 示 ， 如 果 Web 服务 器 确认 客户 端 发 送 的 请 求 无 须 传 递 到 应 用 服务 器 处 理 ， 
那么 它 会 直接 处 理 客 户 端 发 送 的 请 求 并 且 返 回 近乎 标准 格式 的 信息 给 客户 端 机 器 。 这 种 方法 
一 般 是 基于 文件 后 级 。 例 如 ， 所 有 的 .html 和 .htm 文件 可 以 由 Web 服务 器 自行 处 理 。 

然而 ， 如 果 请 求 之 有 特定 的 后 级 ， 就 需要 应 用 服务 器 的 干预 ,图 8-9 是 消息 流 被 调用 的 
过 程 。 根 据 需 要 ， 应 用 调用 数据 库 ， 使 用 前 面 描述 的 (ADO.NET 或 JDBC) 或 专用 机 制 中 的 
一 种 。 虽 然 各 种 流行 平台 ( JSP/ Java 程序 、ASPNET 、ColdFusion 和 PHP) 处 理 请 求 的 内 部 
细节 差异 较 大 ， 但 用 于 创建 Web 应 用 程序 的 逻辑 却 非常 相似 ， 如 图 8-9b 所 示 。 





Request *.htm 
客户 病 Return HTML 


po “.jsp 
| 客户 并 <_Return HTML 


b) 动态 页 面 请 求 
图 8-9 三 层 体系 结构 中 的 信息 流 


8.5.1 JSP Web 应 用 


综 上 所 述 ， 有 几 个 合适 的 语言 和 开发 工具 可 用 于 创建 动态 Web 页 面 。 其 中 最 流行 的 语 
言 是 Java 服务 器 页 面 (JSP)。JSP 页 面 是 一 种 兼容 HTML 和 Java 的 语言 。HTML 部 分 可 以 
在 浏览 器 上 显示 信息 。Java 部 分 主要 用 于 处 理 HTML 表单 发 送 的 信息 。 

图 8-10 示例 中 显示 的 JSP 应 用 程序 代码 用 于 捕获 用 户 注 册 信 息 并 把 数据 存储 在 数据 库 
中 。 假设 页 面 的 名 字 为 registration.jsp。 那 么 ， 这 个 JSP 页 面 执 行 以 下 功能 : 

e 显示 注册 表单 。 

e 处 理 用 户 填写 的 表格 ， 并 检查 常见 错误 ， 如 缺失 项 检查 或 密码 字段 匹配 。 

e 如 果 出 现 错误 ， 则 重新 显示 整个 表单 ， 并 用 红色 标记 错误 信息 。 

e 如 果 没 有 错误 ， 则 将 用 户 信 息 存 人 数据 库 并 向 用 户 发 送 “成 功 ” 页 面 。 

现在 来 查看 各 部 分 代码 是 如 何 实现 上 述 功 能 的 。 在 <% 和 %> 之 间 是 所 有 Java 代码 的 内 
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容 ， 并 且 不 在 浏览 锅 中 显示 ， 在 浏览 希 中 只 显示 包含 在 HTML 标签 之 间 的 内 容 。 


<%@ page import= java.Sql.” %> 
<% 






<%(@page%> 指令 适用 于 整个 JSP 页 面 。 导 入 属 
性 指定 Java 包 ， 应 该 包含 在 整个 JSP 文件 中 









// Create an empty new variable 
String message = null; 


// Handle the form 


if (request.getParameter("submit") != null) 检查 表单 是 否 需 要 人 处理 
{ 


String firstName = null; 
String lastName = null; 
String email = null; 
String userName = null; 
String password = null; 


// Check for a first name 
if (request.getParameter("first_name")=="") { 
message = "<p>You forgot to enter your first name!</p>"; 
firstName = null; 
} 
else{ 
firstName = request.getParameter("first_name"); 


} 


/I! Check for a last name 

if (request.getParameter("last_name")=="™") { 
message = "<p>You forgot to enter your last name!</p>"; 
lastName = null; 


} 


else{ 
lastName = request.getParameter("last_name"); 


} 


// Check for an email address 


if (request.getParameter("email")=="™"){ 验证 邮箱 地 址 
message = "<p>You forgot to enter your email address!</p>",; 


email = null; 
else{ 
email = request.getParameter("email"); 


} 


// Check for a username 


if (request.getParameter("username")==""){ 验证 用 户 名 


message = "<p>You forgot to enter your username!</p>", 
userName = null; 


} 


else{ 
userName = request.getParameter( "username "); 


} 


// Check for a password and match against the confirmed password 


if (request.getParameter("password1")=="™")}{ 验证 密码 


message = "<p>You forgot to enter your password!</p>"; 
password = null; 


} 
a) 验证 和 数据 库 连接 代码 


图 8-10 JSP 应 用 示例 
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else{ 
if(request.getParameter("password1").equals(request.getParameter("password2"{))) 
password = request.getParameter("password1"); 
} 
else { 
password = null; 
message = "<p>Your password did not match the confirmed password!</p>", 
} 
} 


/i lf everything's OK 
PreparedStatement stmt = null; 
Connection conn = null; 

if (firstName!=null && lastNamel=null && emaill=null && userName!=null && password!=n{ull) 

如 果 用 户 的 所 有 信息 都 通过 验证 ， 那 么 该 
数据 被 插入 数据 库 中 (本 例 中 是 一 个 Oracle 
数据 库 ) 










/ Call method to register student 
try{ 


//! Connect to the db 
DriverManager.registerDriver(new oracle.jdbc.driver.OracleDriver( )); 
conn=DriverManager.getConnection("jdbc:oracle:thin:@localhost:1521:xe","scott", tiger ); 


连接 到 数据 库 
连接 字符 串 : jdbc:oracle:thin:@localhost:1521:xe 


用 户 名 : scott 


/! Make the query 密码 : tiger 

String ins_query="INSERT INTO users VALUES ("+firstName+","+lastName+"," 

+email+","+UuserName+","+password+")"; 
stmt=conn.prepareStatement(ins_query), 





// Run the query 一 
int result = stmt.executeUpdate(ins_query); 准备 并 且 执 行 INSERT 查询 
conn.commit(); 


message = "<p> <b> You have been registered ! </b></p>"; 如 果 INSERT 成 功 执 


行 ， 则 打印 信息 
/! Close the database connection 
stmt.close(); 关闭 连接 和 声明 
conn.close(); 
如 果 INSERT 没 有 成 功 执行 ， 
则 打印 错误 消息 


message = "<p> <b> You could not be registered due to a system error. We apologize 
for any inconvenience. </b>/p>"+ex.getMessage()+"</p>", 

stmt.close(); 

conn.close(); 

} 

} 


else{ 
message = message+"<p>.Please try again</p> ; 


} 


90> 


} 
catch (SQLException ex){ 


结束 JSP 代码 


| 


a) ( 续 ) 
图 8-10 ( 续 ) 
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在 JSP 应 用 中 用 HTML 代码 创建 表单 
<html> HTML 开始 表单 
<head> <title> Register </title> </head> 
<body> 
<% if (message!=null) {%> 
<font color ='red> <%=message%> </font> 
<%}%> 
<form method="post"> 
<fieldset> 
<legend>Enter your information in the form below:</legend> 
<p> <b> First Name: </b> 
<input type="text” name="first name" size="15" maxiength ="15" value=""/></p> 
<p> <b> Last Name: </b> 
<input type="text” name="last name"” size="30" maxlength ="30" value=""/></p> 
<p> <b> Email Address: </b> 
<input type="text” name="email" size="40" maxlength ="40" value=""/></p> 


<p> <b> User Name: </b> 
<input type="text” name="usermame" size="10" maxlength ="20" value=""/>/p> 
<p> <b> Password: </b> 


<input type="password" name="password1" size="20" maxlength ="20" value=""/></p> 
<p> <b> Confirm Password: </b> 

<input type="password" name="password2" size="20" maxlength ="20" value=""/></p> 
</fieldset> 
<div align="center"> <input type="submit" name="submit" value="Register"/></div> 
</form> <!-- End of Form —> 
</body> 
</html> 


b) 在 JSP 应 用 中 用 HTML 代码 创建 表格 
Enter your information in the fomn below: 


First Name: | 


LastName:| 


Email Address: | 


User Name: Fb 1 


一 一 
Password: | 


Confirm Password: | 





c) JSP 应 用 中 的 输出 表单 示例 
图 8-10 ( 续 ) 


当 用 户 在 浏览 器 中 输入 URL (http://myserver.mydomain.edu/regapp/registration.jsp) 来 访 
问 registration.jsp 页 面 时 ，Web 参数 值 为 空 值 。 因 为 IF 条 件 语句 失败 ， 所 以 HTML 表单 不 
显示 错误 信息 。 注 意 ， 这 个 表单 有 一 个 提交 按钮 ， 并 且 表 单 动作 值 表 明 要 进行 数据 处 理 的 页 
面 也 是 registration.jsps 

当 用 户 填 写 详细 信息 并 点 击 提交 按钮 时 ， 数 据 将 被 发 送 到 Web 服务 希 ， 这 些 Web 服务 人 上 
的 数据 ( 称 为 参数 ) 被 传递 到 应 用 服务 器 ， 然 后 代码 返回 到 动作 参数 指定 的 页 面 ( 即 registration. 
jsp 页 面 )。 页 面 中 的 代码 采用 Java 语言 编写 ， 并 被 封装 在 “<%” 和 “%>” 中 。 这 段 代码 
有 多 处 用 来 进行 错误 检查 的 IF-ELSE 语句 ， 包 含 了 数据 库 中 存储 用 户 表单 的 数据 逻辑 部 分 。 

如 果 用 户 项 缺失 或 密码 不 匹配 ，Java 代码 会 将 “ message” 值 设置 为 一 个 非 “NULL 
的 值 。 检 查 结束 后 ， 显 示 原 始 表 单 ， 这 时 ， 由 于 第 一 个 IF 语句 的 设置 ， 错 误 信 息 将 会 用 红 


[283 


272 第 四 部 分 实 现 





色 在 表单 的 顶部 标注 显示 。 

男 外 ， 如 果 表 单 填写 正确 ， 则 执行 回 数据 库 中 插入 数据 的 代码 段 。 请 注意 ， 此 代码 段 和 
之 前 Java 示例 中 的 代码 非常 相似 。 在 用 户 信 息 被 插 人 数据 库 之 后 ，<jsp: forward> 触发 应 用 
服务 侣 执行 称 为 success.jsp 的 新 JSP 页 面 。 这 些 信息 应 该 由 success.jsp 页 面 来 显示 。 注 意 ， 
该 页 面 显 示 的 信息 值 由 Web 参数 进行 传递 。 需 要 注意 的 是 ， 所 有 的 JSP 页 面 在 执行 之 前 都 
要 在 应 用 服务 器 上 编译 成 Java servlet 程序 。 

如 果 从 数据 库 访 问 的 角度 分 段 检查 应 用 (从 try 块 开 始 )， 会 发 现 前 述 的 JSP 页 面 的 内 
部 代码 和 Java 应 用 的 代码 没有 本 质 的 差别 ， 它 与 本 章 前 面 所 确定 的 六 个 步骤 相同 。 这 种 情 
况 下 的 主要 的 区 别 是 ， 数 据 库 访问 代码 作为 Java servlet 程序 的 一 部 分 在 应 用 服务 器 上 运行 ， 
而 不 是 在 客户 端 运行 。 

8.5.2 ASPNET 例子 
最 终 的 代码 段 显示 如 何 用 ASPNET 编写 注册 页 面 (图 8-11 )。 





<%@ Page Language="C#" AutoEventWireup="true" CodeFile="users.aspx.cs" Inherits="users" %> 
<html xmins="http://www.w3.o0rg/1999/xhtml" > 
<head runat="server"> 
<title>Register</title> 
</head> 
<body> 
<form id="form1" runat="server"> 
<div> 
<asp:DetailsView ID="manageUsers" runat="server” DataSourcelD="usersDataSource"> 
<Fields> 
<asp:BoundField DataField="username" HeaderText="User Name" /> 
<asp:BoundField DataField="first name" HeaderText="First Name" /> 
<asp:BoundField DataField="|last_name" HeaderText="Last Name" /> 
<asp:BoundField DataField="email" HeaderText="Email Address" /> 
<asp:BoundField DataField="password" HeaderText="Password" /> 
<asp:CommandField ShowlnsertButton="True"” ButtonType="Button" /> 
</Fields> 
</asp:DetailsView> 
<asp:SqlDataSource ID="usersDataSource" runat="server" 
ConnectionString="<%$ ConnectionStrings:StudentConnectionString %>" 
InsertCommand="INSERT INTO users(username, first name, last name, email, password, 
registration_date) VALUES (@username, @first_name, @last name, @email, @password, GETDATE())" 
SelectComman 中 "SELECT [username], [first_name], [last_name], [email], [password] FROM [users]"> 
</asp:SqlDataSource> 
</div> 
</form> 
</body> 
</html> 






























a) 用 户 注 册 ASPNET 代码 示例 


| Email Mddress | 


jm 


b) ASPNET 应 用 表单 
图 8-11 采用 ASPNET 编写 注册 页 面 
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请 注意 ，ASPNET 代码 比 PHP 或 JSP 代码 短 很 多 。 这 是 因为 在 这 一 部 分 代码 中 没有 包 
含 所 有 错误 检查 。 此 外 ，ASPNET 提供 了 强大 的 内 置 控件 功能 ， 可 以 帮助 完成 另外 两 种 语 
言 需 要 自行 编写 的 部 分 代码 ， 以 执行 主要 功能 。 例 如 DetailsView 控件 ， 从 Web 页 面 的 各 种 
文本 字段 中 目 动 抓 取 数 据 并 且 给 相应 的 数据 字段 变量 赋值 (例如 ， 用 户 名 《User Name) 表 
单字 段 存 储 在 用 户 名 (username) 数据 字段 中 )。 此 外 ，SqlDataSource 控件 隐藏 了 包括 数据 
库 连 接 、 数 据 库 查询 和 结果 检索 等 步骤 的 细节 。 


8.6 三 层 应 用 中 的 关键 因素 


前 面 章节 介绍 了 应 用 中 使 用 的 数据 库 组 件 ， 注 意 从 二 层 应 用 到 三 层 应 用 转变 过 程 中 ， 数 
据 库 的 基础 操作 (如 数据 库 连 接 、 检 索 和 存储 操作 ) 基本 不 变 。 事 实 上 ， 真 正 改变 的 是 访问 
数据 库 位 置 的 代码 。 那 么 ,为 了 保证 创建 一 个 稳定 的 高 性 能 的 应 用 ， 应 用 开发 人 员 在 开发 过 
程 中 要 牢记 几 个 关键 因素 。 


8.6.1 存储 过 程 


存储 过 程 (和 过 程 类 似 ， 见 第 7 章 定 义 ) 是 实现 应 用 逻辑 功能 代码 的 模块 ， 经 编译 后 存 
储 在 数据 库 服务 器 上 。 正 如 Quinlan ( 1995 ) 所 阐述 的 ， 存 储 过 程 有 如 下 优点 : 

e 提高 了 SQL 语句 的 编译 性 能 。 

e 减少 了 从 客户 端 到 服务 器 的 网 络 流量 。 

e 如 果 采 用 存储 过 程 ， 避 免 终端 直接 访问 数据 并 且 代 码 不 在 服务 器 上 直接 运行 ， 安 全 性 

更 高 。 

e 多 个 应 用 访问 同一 个 存储 过 程 时 ， 数 据 完 整 性 有 所 提高 。 

e 存储 过 程 可 以 在 瘦 客 户 端 和 胖 数 据 库 服务 器 上 运行 。 

然而 ， 编 写 存储 过 程 耗费 的 时 间 比 用 VB 和 Java 开发 程序 要 多 。 同 时 ， 存 储 过 程 独 有 
的 性 质 降低 了 其 可 移植 性 ， 并 且 很 多 情况 下 ， 如 果 不 重 写 存储 过 程 很 难 对 DBMS 进行 修改 。 
但 是 如 果 存 储 过 程 使 用 恰当 ， 则 可 以 提高 数据 库 代 码 的 处 理 效率 。 

如 图 8-12a 所 示 是 一 个 用 Oracle 的 PL/SQL 语言 编写 的 检查 用 户 名 在 数据 库 中 是 否 重 
名 的 存储 过 程 示例 。 图 8-12b 所 示 是 一 个 表示 可 以 在 Java 程序 中 调用 存储 过 程 的 代码 片段 
示例 。 


8.6.2 事务 


到 目前 为 止 所 示 的 例子 中 ， 仅 研究 了 单个 SQL 操作 的 组 成 代码 。 然 而 很 多 商业 应 用 需 
要 多 个 SQL 查询 来 共同 完成 业务 事务 。 默 认 情 况 下 ， 大 多 数 数据 库 连 接 都 假设 数据 库 执行 
查询 的 结果 是 即时 提交 。 其 实 ， 可 以 在 程序 中 定义 业务 事务 的 概念 。 图 8-13 展示 了 如 何 利 
用 Java 程序 执行 数据 库 事务 。 

考虑 到 可 能 会 有 成 千 上 万 的 用 户 在 任意 给 定 的 时 间 点 (考虑 亚马逊 和 eBay) 通过 Web 
应 用 试图 同时 访问 和 /或 更 新 数据 库 ， 应 用 开发 人 员 需 要 精通 数据 库 事务 的 概念 ， 并 且 能 利 
用 这 些 事 务 概念 开发 相应 的 应 用 。 
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CREATE OR REPLACE PROCEDURE p_registerstudent 
( 
p_first name IN VARCHAR2 
p_last name IN VARCHAR2 
p_email IN VARCHAR2 
p_username IN VARCHAR2 
p_password IN VARCHAR2 
_error OUT VARCHAR2 










过 程 p_registerstudent 接收 姓 和 名 、 电 
子 邮 件 、 用 户 名 、 密 码 作 为 输入 ， 并 且 
可 以 返回 错误 信息 (如 果 有 错误 的 话 ) 






IS 
| user exists NUMBER := 0; 
| error VARCHAR2(2000); 


BEGIN 


BEGIN 二 
SELECT COUNT(*) 这 个 查询 检查 输入 的 用 户 名 在 数 库 


INTO 1_user_exists 中 是 否 已 经 存在 


FROM users 
WHERE username = p_username. 


EXCEPTION 
WHEN OTHERS THEN 


|_error := 'Error: Could not verify username' 
END; 


IF | user exists = 1 THEN 
|_error := 'Error: Usemame already exists !", 如 有 果 该 用户 名 已 经 存在 ， 则 为 用 户 创 


ELSE 建 一 个 错误 提示 信息 


BEGIN 
INSERT INTO users VALUESI(p_first name,p_last_ name,p_email,p_username,p_password,SYSDATE); 





EXCEPTION 
WHEN OTHERS THEN 
|_error := Error Could not insert user ; 如 果 该 用 户 名 在 数据 库 中 不 存在 ， 
END; 则 输入 的 数据 被 插入 数据 库 中 
END IF; 


p_error = | error; 
END p_registerstudent,; 


a) Oracle PL/SQL 存储 过 程 示 例 


CallableStatement stmt 
connection.prepareCall("begin P_registerstudent(?,?,?,?,?,?); end,"); 


// Binds the parameter types 

stmt.setString(1, first_name); 
stmt.setString(2, last_name); 
stmt.setString(3, email); 
stmt.setString(4, username); 
stmt.setString(5, password); 
stmt.registerOutParameter(6, Types.VARCHAR); 

stmt.execute(); 

error = stmt.getString(6); 


b) 调用 Oracle PL/SQL 存储 过 程 的 Java 代码 示例 
图 8-12 Oracle PL/SQL 存储 过 程 示 例 
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connection.setAutoCommit(false); 防止 数据 库 驱 动 立刻 将 查询 提交 到 数据 库 
try { 


Statement st = connection.createStatement(); 
st.executeUpdate("UPDATE Order_T SET Quantity =(Quantity - 1) WHERE OrderlD = "1001"); 


st.executeUpdate("UPDATE OrderLine T SET Quantity = (Quantity - 1) WHERE OrderLinelD = "100"); 


ei 两 次 更 新 作为 一 组 提交 到 数据 库 
catch (SQLException e) { connection.rollback()}; 如 果 更 新 失败 ， 回 滚 数据 库 


finally { connection.setAutoCommit(true)}; 
重 置 AutoCommit 为 true 


图 8-13 SQL 事务 Java 部 分 代码 示例 


8.6.3 ”数据 库 连接 


在 大 多 数 三 层 应 用 中 ，Web 服务 右 和 应 用 服务 右 通 常 架设 在 同一 台 机 右上 ， 数 据 库 服 
务 右 则 通常 配置 在 其 他 机 右上 。 在 这 种 情况 下 ， 数据库 连接 和 保持 数据 库 连 接 处 于 活动 状态 
的 行为 非常 耗费 资源 。 并 且 ， 大 多 数 数据 库 对 同一 时 刻 连接 数据 库 用 户 的 个 数 都 设 定 了 最 大 
连接 上 限 。 这 对 于 互联 网 应 用 来 说 是 种 挑战 ， 因 为 很 难 预 估 互 联网 上 同时 访问 数据 库 的 用 户 
数量 。 幸 运 的 是 大 多 数 数据 库 驱 动 为 了 减轻 程序 开发 人 员 的 负担 ， 采 用 了 数据 库 连 接 池 的 概 
念 对 数据 库 连 接 进 行 管 理 。 但 是 ， 应 用 开发 人 员 在 设计 应 用 程序 时 仍 需 注意 数据 库 连 接 的 频 
率 ， 并 且 要 保证 数据 库 连接 的 时 间 间 隔 。 


8.6.4 ”三 层 应 用 的 主要 优点 


合理 使 用 三 层 应 用 进行 设计 开发 具备 以 下 优势 (Thompson，1997 ): 

e® 可 扩展 性 三 层 体系 结构 比 二 层 体系 结构 具备 更 好 的 可 扩展 性 。 例 如 ， 中 间 层 可 以 使 
用 事务 处 理 (TP) 监听 器 减少 数据 库 服务 器 的 连接 数量 ， 从 而 减轻 数据 库 服务 器 上 的 
负载 ， 也 可 以 通过 添加 应 用 服务 器 进行 分 布 式 应 用 处 理 。 事 务 处 理 监听 器 是 指控 制 客 
户 端 和 服务 器 之 间 的 数据 交换 并 为 联机 事务 处 理 (OLTP) 提供 稳定 环境 的 程序 。 

e 技术 灵活 性 虽然 需要 重 写 触 发 器 和 存储 过 程 ， 但 是 在 三 层 体 系 结构 中 更 换 DBMS 
引擎 更 简单 。 中 间 层 甚至 可 以 被 移植 到 其 他 平台 继续 使 用 。 简 化 的 表示 层 服务 可 以 更 
加 方便 地 实现 不 同 需求 的 接口 ， 比 如 在 Web 浏览 器 或 查询 机 上 。 

e 降低 长 期 成 本 ”中间 层 使 用 现 有 的 组 件 或 服务 可 以 替代 应 用 的 部 分 模块 ， 而 不 需要 蔡 
换 整 个 应 用 ， 从 而 降低 开发 成 本 。 

。 更 符合 业务 系统 需求 “不仅 支持 通用 模块 开发 ， 还 支持 有 特定 业务 需求 的 新 模块 的 应 
用 开发 。 

e 改进 了 客户 服务 ”为 访问 同一 个 业务 流程 为 不 同 的 客户 端 提 供 了 不 同 的 接口 。 

e 竞争 优势 ” 当 业 务 发 生变 化 时 ， 为 了 满足 业务 需求 ， 只 需 改 变 部 分 代码 模块 而 不 需要 
改变 整个 应 用 程序 ， 比 二 层 应 用 更 有 竞争 力 。 

e 降低 风险 ”三 层 应 用 具有 快速 实现 小 代码 模块 的 能 力 ， 利 用 从 代码 销售 商 购 买 的 代 
码 ， 就 可 整合 完成 一 个 应 用 程序 的 开发 ， 这 降低 了 直接 开发 一 个 大 型 应 用 程序 的 风险 。 
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8.6.5 云 计 算 和 三 层 应 用 


利用 云 计 算 开 发 三 层 应 用 成 为 目前 的 热门 趋势 ， 云 计算 广告 已 经 占据 了 世界 各 地 黄金 时 
段 的 电视 六 目 和 大 型 机 场 。 

那么 究竟 什么 是 云 计 算 呢 ? 按照 Mell 和 Grance (2011 ) 的 说 法 ， 云 计算 这 个 术语 指 的 
是 一 种 提供 “ 普 适 、 方 便 和 按 需 网 络 连接 ”去 共享 一 系列 的 计算 资源 〈 网 络 、 服 务 器 、 应 用 
和 服务 ) 的 模型 。 

所 有 云 技术 都 有 以 下 几 个 共同 特征 (Mell 和 Grance，2011 ): 

1 ) 按 需 目 选 服务 一 一 IT 功能 可 以 在 创建 或 释放 时 与 服务 提供 商 之 间 的 交互 达到 最 小 。 

2 ) 拓宽 网 络 连接 一 一 IT 功能 可 以 借助 网 络 技术 提供 给 更 多 设备 的 访问 〈 手 机、 桌面 客 
户 闪 等 )。 

3 ) 资源 共享 一 一 服务 提供 商 能 够 为 各 种 不 同 的 客户 机 构 提 供 服 务 并 共享 其 资源 (存储 、 
服务 需 等 )， 从 而 达到 满足 不 同 客户 的 服务 需求 。 

4 ) 快速 伸缩 性 一 一 客户 可 以 很 容 多 地 (通常 会 自动 的 ) 扩大 或 缩减 服务 提供 商 提供 的 
功能 。 

5 ) 计量 服务 一 一 客户 能 够 控制 自身 所 需要 使 用 的 功能 规模 ， 并 仅 为 他 们 需要 的 服务 付 
费 。 因 此 ， 服 务 提 供 商 可 以 通过 消费 者 的 消费 水 平 来 衡量 服务 使 用 情况 。 

Mell 和 Grance ( 2011 ) 还 前 述 了 几 种 流行 的 云 技术 类 别 : 

1 ) 基础 设施 即 服务 : 这 类 云 计算 指 的 是 采用 运营 商 提供 的 技术 ， 如 服务 器 、 存 储 和 网 
络 。 这 类 服务 对 于 公司 来 说 最 主要 的 优势 在 于 购买 、 运 行 以 及 设备 和 软件 的 维护 任务 都 由 运 
营 商 承 担 。 基 础 设施 即 服务 (Iaas) 模型 最 典型 的 示例 是 微软 的 Azure 和 Rackspace。 

2 ) 平台 即 服务 : 这 类 云 计 算是 指 在 云 上 搭建 关键 技术 解决 方案 模块 。 示 例 包 括 应 用 
服务 器 、Web 服务 希 和 数据 库 技术 。 现 在 流行 的 数据 库 如 SQL Server、MySQL、Oracle 和 
IBM 的 DB2 者 可 以 通过 这 种 平台 模型 由 销售 商 直 接 提 供 ， 例 如 ， 微 软 的 SQL Azure/Oracle 
的 公共 云 ， 或 者 通过 像 亚马逊 的 EC 这 样 的 云 服务 。 

3 ) 软件 即 服务 : 指 将 整个 应 用 或 应 用 集合 放置 在 云端 运行 ， 提 供用 户 在 互联 网 上 访问 ， 
而 不 再 是 放置 在 公司 自己 的 基础 设施 中 。 该 模型 的 典型 的 示例 是 Salesforce.com 的 CRM 系 
统 。 目 前 SAP 和 Oracle 也 发 布 了 “cloud ready” 版 本 的 企业 应 用 程序 。 

从 专业 的 数据 库 应 用 程序 开发 角度 观察 ， 云 计算 的 普及 可 能 会 在 两 个 主要 方面 产生 影 
响 。 第 一 ， 当 开发 三 (或 更 多 ) 层 应 用 时 ， 可 能 有 一 层 或 更 多 层 Web、 应 用 和 (或 ) 数 
据 库 可 以 交 给 云 服 务 提 供 商 进行 托管 。 第 二 ， 云 数据 库 / 应 用 平台 的 普及 使 得 利用 各 种 
数据 库 /应 用 平台 进行 开发 和 部 署 应 用 变 得 简单 ， 因 为 负责 购买 、 安 装 、 配 置 和 维护 典型 的 
n 层 应 用 组 件 的 任务 得 到 了 简化 。 这 对 于 那些 拥有 有 限 IT 预算 / 资源 的 公司 来 说 非常 有 利 。 
值得 一 提 的 是 云 计 算 并 没有 明显 改变 本 章 前 面 所 提 到 的 开发 三 层 应 用 的 核心 原则 。 然 而 ， 云 
端 托管 的 数据 库 会 对 数据 库 管理 员 产 生 深 远 影 啊 。 


8.7 可 扩展 标记 语言 


可 扩展 标记 语言 ( XML) 是 数据 交换 的 一 个 重要 发 展 ， 并 将 继续 改变 互联 网 中 的 数据 交 
换 方式 。XML 所 涉及 结构 中 的 数据 表示 和 格式 可 以 通过 Internet 进行 交换 ， 并 且 能 通过 不 
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同 的 组 件 进行 解释 (例如 浏览 咽 、Web 服务 器 、 应 用 服务 器 )。XML 并 没有 代替 超 文本 标记 
语言 (HTML)， 它 与 HTML 共同 完成 互联 网 中 数据 的 迁移 、 交 换 和 操作 。 287 


XML 使 用 标签 和 包含 在 一 对 尖 括 号 ( <>) 内 的 简短 语句 来 描述 数据 。XML 中 的 尖 括 号 


和 HTML 中 标签 的 使 用 方法 类 似 。HTML 标签 主要 用 于 描述 网 页 中 内 容 的 呈现 ， 而 XML 
标签 不 仅 能 描述 内 容 还 能 描述 数据 本 身 。 考 虑 下 述 的 XML 文档 ， 它 用 于 描述 PVFC 中 的 产 


[mm 
HH ， 


存储 在 文件 名 为 PVFC.xml 的 文档 中 。 


<?xml version =“1.0"/> 
<furniturecompany> 
<product ID="1"> 
<description>End Table</description> 
<finish>Cherry</finish> 
<standard price>175.00</standard price> 
<line>1</line> 
</product> 
</furniturecompany> 


符 号 <description> 和 <finish> 等 都 是 XML 标签 的 示例 ;<description>End Table 


</description> 是 示例 中 的 一 个 元 素 。 因 此 ，XML 文档 包含 一 系列 的 艇 套 元 素 。XML 对 
构成 标签 的 元 素 没有 严格 的 限制 。 但 是 ，XMEL 文档 必须 保证 其 结构 符合 XML 文档 规则 。 
XML 主要 采用 三 种 技术 来 验证 其 文档 结构 是 和 否 正 确 ( 即 遵循 所 有 规则 构成 一 个 有 效 的 XML 
文档 ): 文档 结构 声明 (DSD )、XML 模式 定义 (XSD) 和 Relax NG。 它 们 都 是 文档 类 型 声明 
(DTD)，DTD 被 称 为 XML 的 第 一 个 版 本 ， 所 以 存在 某 些 不 足 。DTD 在 XML 文档 中 不 能 指 
定数 据 类 型 ， 也 不 允许 采用 自 定义 语言 编写 。 此 外 ，DTD 不 支持 部 分 新 增加 的 XML 特性 ， 
如 命名 空间 等 。 


为 了 克服 上 述 缺 点 ,万 维 网 协会 (W3C) 在 2001 年 5 月 发 布 了 XML 模式 标准 。 该 标 


准 提供 XML 文档 数据 定义 数据 模型 和 构建 数据 类 型 的 标准 。W3C 的 XML 模式 定义 (XSD ) 
语言 采用 一 些 常 用 的 XML 词汇 来 描述 XML 文档 。XSD 代表 了 自 DTD 后 的 进展 ， 人 允许 在 
XML 文档 内 部 描述 数据 类 型 。 下 面 是 描述 销售 员 记录 的 结构 、 数 据 类 型 以 及 验证 的 人 简单 
XSD 模式 示例 。 


<?xml| version="1.0" encoding=“utf-8” ?> 
<xsd:schema id="salespersonSchema” 
xmlns:xsd=”http://www.w3.org/2001/XMLSchema”> 
<xsd:element name=“Salesperson" type="”SalespersonType” /> 
<xsd:complexType name="SalespersonType”> 
<xsd:sequence> 
<xsd:elementname="“SalespersonID” 
type="xsd:integer”/> 
<xsd:elementname=“SalespersonName” 
type="xsd:string” /> 
<xsd:element name=”SalespersonTelephone” 
type="PhoneNumberType"> 
<xsd:element name="SalespersonFax” 
type="PhoneNumber” minOQccurs="0" /> 
</xsd:element> 
</xsd:sequence> 
</xsd:complexType> 
<xsd:simpleType name="PhoneNumberType”"> 
<xsd:restriction base="xsd:string”> 
<xsd:length value=”12”/> 
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<xsd:pattern value="\d{3}-\d{3}-\d{4}” /> 
</xsd:restriction> 
</xsd:simpleType> 
</xsd:schema> 


下 面 给 出 的 XML 文档 符合 之 前 列 出 的 模式 。 


<?xml version=“1.0” encoding="utf-8” ?> 
<Salesperson xmlns:xsi=http:/www.w3.org/2001/XMLSchema-instance 
xsi:noNamespaceSchemalLocation="”salespersonSchema.xsd”> 
<SalespersonID>1</SalespersonID> 
<SalespersonName>Doug Henny</SalespersonName> 
<SalespersonTelephone>813-444-5555</SalespersonTelephone> 
</Salesperson> 


虽然 可 以 定义 自己 的 XML 词汇 表 , 但 也 可 以 直接 使 用 各 种 公共 XML 词汇 表 来 标记 
数据 。 这 些 词 汇 表 可 以 在 http://wdvl.com/Authoring/Languages/Xml/Specifications.html 和 
www.service-architecture.com/xml/articles/xml_vocabularies.html. 中 查找 。 这 些 词 汇 使 组 织 
间 的 数据 交换 变 得 更 简单 。 选 择 最 佳 的 XML 词汇 描述 数据 库 非 常 重要 。 由 于 XML 的 普及 ， 
可 用 的 外 部 XML 模式 库 越 来 越 多 ， 但 是 目前 ， 网 络 搜索 和 口碑 是 为 应 用 找到 合适 模式 的 最 
有 效 机 制 。 

基于 XML 的 新 词汇 (如 可 扩展 商务 报告 语言 (XBRL) 和 结构 化 产品 标签 ( SPL)) 已 成 
为 开放 标准 ， 该 标准 无 须 与 之 前 的 标准 做 明确 的 比较 。 金 融 机 构 可 以 通过 XBRL 连续 记录 多 
达 2000 个 财务 数据 点 ， 使 用 标准 的 XBRL 标记 可 以 定义 如 成 本 、 资 产 和 净 收 入 等 内 容 。 这 
些 数据 点 可 以 进行 组 合 ， 也 可 以 与 金融 报告 进行 对 比 。 作 为 产品 ， 由 于 XBRL 的 易 用 性 及 市 
场 的 接受 度 ， 大 型 金融 机 构 希 望花 尽量 少 的 时 间 清 理 和 规范 数据 并 与 业务 伙伴 交换 数据 。 规 
模 较 小 的 机 构 可 以 提前 进行 预测 ， 以 获得 经 济 实惠 的 财务 分 析 ( Henschen，2005 )。FDA 也 
开始 要 求 使 用 结构 化 产品 标签 (SPL)， 对 处 方药 和 非处方药 记录 药品 标签 中 提供 的 信息 。 

现在 ， 对 XML 的 文档 结构 已 经 有 基本 的 了 解 ， 接 下 来 将 注意 力 转移 到 如 何 将 XML 数 
据 用 于 现代 计算 环境 中 以 及 分 析 XML 带 来 的 挑战 。 


8.7.1 存储 XML 文档 


随 着 XML 数据 变 得 更 加 丰富 ， 需 要 回答 的 一 个 最 大 问题 是 “这 些 数据 存储 在 哪里 ?”。 
虽然 XML 数据 可 以 作为 一 系列 的 文件 进行 存储 ， 但 会 带 来 在 第 1 章 中 讨论 的 文件 处 理 系 统 
中 同样 的 缺点 。 幸 运 的 是 ， 可 以 有 多 种 存储 XML 数据 的 选择 : 

1 ) 通过 分 解 XML 文档 在 关系 数据 库 中 存储 XML 数据 ”分解 XML 文档 本 质 上 意味 着 
用 一 个 表 独 立地 存储 XML 模式 中 的 每 个 元 素 ， 同 时 用 另外 的 表 存 储 元 素 之 间 的 联系 。 现 代 
数据 库 (如 Microsoft SQL Server 和 Oracle) 提供 SQL 之 外 的 功能 ， 可 以 用 来 存储 和 检索 
XML 数据 。 

2 ) 在 具有 存储 大 对 象 存 储 能 力 的 字段 中 存储 整个 XML 文档 ， 如 二 进 制 大 对 象 ( BLOB ) 
或 字符 大 对 象 (CLOB) 如 果 需 要 搜索 XML 文档 中 的 数据 ， 这 种 技术 不 是 非常 有 用 。 

3 ) 使 用 数据 库 中 特殊 的 XML 列 存储 XML 文档 ”例如 ， 这些 XML 列 可 以 和 XSD 相关 
联 ， 以 保证 被 插入 的 XML 文档 是 个 有 效 文档 。 

4 ) 使 用 原生 XML 数据 库存 储 XML 文档 ”设计 专门 的 非 关 系数 据 库 来 存储 XML 文档。 

一 般 情况 下 ， 后 两 种 方式 主要 用 于 处 理 的 主要 信息 初始 化 为 XML 格式 。 例 如 ， 许 多 学 
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术 和 专业 会 议 开始 要 求 作者 提交 演讲 和 论文 的 XML 格式 。 男 外 ， 前 两 种 方式 主要 在 XML 
作为 浏览 器 和 应 用 服务 器 之 间 的 数据 交换 格式 时 使 用 。 


8.7.2 检索 XML 文档 


现代 数据 库 对 于 从 XML 格式 的 数据 库 中 检索 信息 提供 了 广泛 支持 。XPath 和 XQuery 
是 检索 XML 数据 的 关键 技术 。 之 前 列 出 的 存储 选项 提供 了 检索 XML 格式 数据 的 详细 机 制 。 
对 于 前 三 个 选项 ， 需 要 扩展 的 SQL 语言 (基于 XPath 和 XQuery) 的 支持 。 如 果 是 原生 XML 
数据 库 ，XQuery 可 能 是 最 好 的 选择 。XQuery 帮助 定位 和 提取 XML 文档 中 的 元 素 ， 它 可 以 
用 来 完成 如 XML 数据 到 XHTML 的 转换 、 提 供 信 息 给 Web 服务 使 用 、 生 成 汇总 报表 和 搜索 
Web 文档 等 功能 。 

XML Query 工作 组 在 www.w3c.org/XML/Query 上 对 XQuery 进行 了 简单 的 介绍 :“XQuery 
是 一 种 包含 了 文档 、 数 据 库 、 网 页 等 几乎 所 有 内 容 的 标准 化 语言 ， 具 有 广泛 的 应 用 ， 功 能 强 
大 且 简 单 易 学 。XQuery 可 以 取代 专 有 中 间 件 语言 和 Web 应 用 开发 语言 。XQuery 可 以 用 几 行 
简单 代码 取代 复杂 的 Java 或 C++ 程序 。 相 对 于 其 他 奉 代 方案 XQuery 更 简单 和 易于 维护 。 

基于 XPath 表达 式 ，XQuery 支持 目前 主要 的 关系 数据 库 引 擎 ， 其 中 包括 对 IBM、 
Oracle 和 Microsoft 的 支持 。 

观察 图 8-14a 所 示 的 XML 文档， 思考 如 下 返回 标准 价格 >300.00 的 所 有 产品 元 素 的 
XQuery 表达 式 : 

for $p in doc(“PVFC.xml”)/furniture company/product 

where $p/standardprice>300.00 

order by $p/description 

return $p/description 

从 示例 中 可 以 看 出 XQuery 和 SQL 之 间 非 党 相似。 所 以 党 说 ，XQuery 作为 XML 的 查 
询 相 当 于 SQL 作为 关系 数据 库 的 查询 。 这 个 演示 示例 可 以 更 顺畅 地 理解 XQuery， 就 像 理 
解 SQL 一 样 。XQuery 表达 式 被 称 为 FLWOR 表达 式 。FLWOR 是 FOR、LET、WHERE、 
ORDER BY 和 RETURN 的 缩写 : 

e FOR 子 句 从 家 具 公 司 选 择 所 有 产品 元 素 ， 并 命名 变量 为 $P。 

e。 WHERE 子 句 选择 标准 价格 高 于 $300.00 的 所 有 产品 元 素 。 

。 ORDER BY 子 句 设置 结果 的 排序 顺序 为 描述 元 素 的 顺序 。 

e RETURN 子 句 指定 返回 元 素 的 描述 。 

上 述 XQuery 的 结果 如 下 : 

<description>8-Drawer Desk</description> 

<description>Computer Desk</description> 

<description>Dining Table</description> 


<description>Entertainment Center</description> 
<description>Writers Desk</description> 


这 个 示例 展示 了 如 何 查 询 XML 格式 的 数据 。 鉴 于 XML 作为 数据 交换 格式 的 重要 性 ， 
许多 关系 数据 库 也 提供 了 从 XML 格式 的 关系 表 中 返回 数据 的 机 制 。 在 Microsoft SQL Server 
中 ， 可 以 通过 在 典型 的 SELECT 查询 结尾 添加 FOR XML AUTO 或 PATH 语句 来 实现 查询 。 
本 质 上 是 将 SELECT 结果 表 转 换 成 XML 格式 并 返回 给 调用 程序 。 在 后 台 ， 许 多 附加 功能 都 
基于 XPath 查询 。 
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<?xml version = “1.0"?> 
<furniture company> 
<product ID="1"> 
<description>End Table</description> 
<finish>Cherry</finish> 
<standard price>175.00</standard price> 
<line>1</line> 
</product> 
<product ID="2"> 
<description>Coffee Table</description> 
<finish>Natural Ash</finish> 
<standard price>200.00</standard price> 
<line>2</line> 
</product> 
<product ID="3"> 
<description>Computer Desk</description> 
<finish>Natural Ash</finish> 
<standard price>375.00</standard price> 
<line>2</line> 
</product> 
<product ID="4"> 
<description>Entertainment Center</description> 
<finish>Natural Maple</finish> 
<standard price>650.00</standard price> 
<line>3</line> 
</product> 
<product ID="5"> 
<description>Writers Desk</description> 
<finish>Cherry</finish> 
<standard price>325.00</standard price> 
<line>1</line> 
</product> 
<product ID="6"> 
<description>8-Drawer Desk</description> 
<finish>White Ash</finish> 
<standard price>750.00</standard price> 
<line>2</line> 
</product> 
<product ID="7"> 
<description>Dining Table</description> 
<finish>Natural Ash</finish> 
<standard price>800.00</standard price> 
<line>2</line> 
</product> 
<product ID="8"> 
<description>Computer Desk</description> 
<finish>Walnut</finish> 
<standard price>250.00</standard price> 
<line>3</line> 
</product> 
</furniture company> 


a) XML 模式 


图 8-14 XML 代码 段 
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<?xml version = "1.0"?> 
<xsl:stylesheet version="1.0" xmiIns:xsl="http:/www.w3.org/1999/XSL/Transform"> 
<xsl:template match="/"> 

<html> 


<body> 

<h2>Product Listing</h2> 

<table border="1"> 

<tr bgcolor="orange"> 
<th>Description</th> 
<th>Finish</th> 
<th>Price</th> 


</tr> 
<xsl:for-each select="furniturecompany/product"> 
<tr> 
<td> <xsl:value-of select="description"/></td> 
<td> <xsl:value-of select="finish"/></td> 
<td> <xsl:value-of select="price"/></td> 
</tr> 
</xsl:for-each> 
</table> 
</body> 
</html> 
</xsl:template> 
</xsl:stylesheet> 





b) XSLT 代码 


Product Listing 
chery |17s5.00) 
bie INatural Ash {20000| 





c) XSLT 转换 输出 
图 8-14 ( 续 ) 


8.7.3 显示 XML 数据 


注意 ， 到 目前 为 止 ， 在 这 些 XML 示例 中 ， 对 如 何 处 理 XML 数据 的 相关 信息 较 少 。 事 
实 上， 如 何 从 显示 数据 中 分 离 出 格式 化 的 数据 是 XML 比 HTML 越 来 越 受 欢迎 的 关键 原因 之 
一 ， 其 中 数据 和 格式 相互 混杂 。 通 过 采用 可 扩展 样式 表 语 言 转换 ( XSLT) 规定 样式 表 控 制 
XML 数据 在 Web 浏览 器 中 显示 。 大 多 数 现代 浏览 器 和 编程 语言 都 支持 XSLT。 因 此 , XML 
可 以 在 应 用 服务 器 层 或 者 Web 服务 器 层 进行 转换 。 图 8-14b 是 以 HTML 表 的 形式 显示 销售 
人 员 数 据 的 XSLT 规范 。 产 生 的 输出 如 图 8-14c 所 示 。 
XSLT 的 优势 之 一 是 ， 可 以 用 来 处 理 目前 在 互联 网 中 使 用 的 各 种 设备 。 智 能 手机 设备 具 
有 内 置 浏览 器 ， 人 允许 用 户 访 问 互 联网 。 一 部 分 浏览 器 要 求 采用 无 线 标记 语言 (WML) 通过 无 
线 应 用 协议 ( WAP) 提交 内 容 。 还 有 一 部 分 浏览 器 可 以 处 理 HTML， 只 要 HTML 已 经 转化 | 入 
为 可 选 的 、 适 合 在 移动 设备 屏幕 显示 的 大 小 即 可 。 通 过 使 用 XSLT、XML 和 其 他 技术 , 无 ”|292 
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须 单独 为 每 个 设备 编写 代码 ， 就 可 以 使 同一 个 数据 集 在 不 同 的 设备 中 呈现 。 
8.7.4 XML 和 Web 服务 


互联 网 就 像 是 一 个 强大 的 驱动 程序 ， 增 进 了 应 用 软件 提供 者 和 应 用 使 用 者 之 间 的 交流 与 
合 。 随 着 互联 网 的 发 展 ， 作 为 分 布 式 计算 平台 ,一 组 新 的 标准 正在 影响 着 软件 开发 及 销 
售 。 软 件 程 序 通 过 使 用 XML 编码 和 网 络 协议 (如 HTTP 和 电子 邮件 协议 )， 可 以 轻松 地 自动 
通信 。 一 种 被 称 为 Web 服务 的 新 应 用 正在 改善 计算 机 在 互联 网 上 进行 自动 通信 的 能 力 ， 因 
此 ，Web 服务 有 助 于 公司 内 部 或 跨 产业 应 用 的 开发 和 部 署 。 现 有 的 建立 通信 的 方式 (如 电子 
数据 交换 (EDI) ) 仍 在 使 用 ， 但 XML 具有 的 普 适 性 意味 着 Web 服务 方式 更 容易 创建 适用 于 
在 分 布 式 环境 中 执行 的 应 用 程序 模块 。 
Web 服务 承诺 体现 了 不 同 应 用 之 间 标 准 化 通信 系统 的 发 展 ，Web 服务 基于 XML 核心 技 
术 。 由 于 开发 人 员 无 须 熟 悉 集 成 应 用 相关 的 技术 细节 ， 也 无 须 学 习 集 成 应 用 的 相关 编程 语 
， 所 以 集成 应 用 变 得 更 简单 。 随 着 建立 企业 级 集成 应 用 和 B2B 联系 所 需 的 时 间 和 精力 显 
著 减 少 的 业务 敏捷 特性 可 以 预测 ， 企 业 对 建立 Web 服务 的 兴趣 越 来 越 大 。 图 8-15 为 一 个 订 
单 输入 系统 的 简单 图 ， 包 括 内 部 Web 服务 ( Order Entry (订单 输入 ) 和 Accounting (支付 ) ) 
和 公司 外 部 Web 服务 (Newcomer，2002 )， 提 供认 证 以 及 信用 验证 服务 企业 的 Web 服务 。 


Tllt 







Web 服务 提供 
商 认 证 





零售 商 库存 服务 
本 本 批发 商 订单 
输入 Web 服务 
批发 商 支 付 
Web 服务 


图 8-15 一 个 典型 的 使 用 Web 服务 的 订单 输入 系统 
资料 来 源 : 基于 Newcomer ( 2002 ) 


还 有 一 些 与 使 用 Web 服务 相关 联 的 关键 附加 条 款 。 图 8-16 描绘 了 一 个 通用 的 数据 库 / 
Web 服务 协议 栈 。 应 用 程序 和 数据 库 中 流入 和 流出 的 数据 转换 和 通信 都 依赖 于 基于 XML 的 协 
议 。 通 用 描述 、 发 现 与 集成 (UDDI ) 是 一 种 技术 规范 ， 用 于 在 企业 和 Web 服务 之 间 建 立 一 
种 基于 Web 服务 进行 通信 的 分 布 式 注册 规范 。Web 服务 描述 语言 (WSDL) 是 一 种 基于 XML 
的 语法 或 语言 ， 用 来 描述 Web 服务 和 说 明 如 何 通过 公共 接口 使 用 Web 服务 。WSDL 用 于 创 
建 自动 生成 客户 端 接口 的 文件 ， 人 允许 开 发 人 员 参 加 业务 逻辑 设计 ， 而 不 仅仅 是 应 用 通信 需 
求 。 公 共 接 口 的 定义 可 以 指明 XML 消息 的 消息 格式 、 数 据 类 型 、 用 于 指定 Web 服务 的 位 置 








Web 服 务 提 
供 商 信用 验证 
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信息 和 使 用 的 传输 协议 (HTTP、HTTPS 或 电子 邮件 ) 等 。 这 些 描述 被 存储 在 UDDI 资源 库 中 。 


简单 对 象 访问 协议 (SOAP) 是 基于 XML 的 通 一 -一 
Publish, Find, UD 通用 描述 ， 
Use Services 发 现 与 集成 









信 协 议 ， 用 于 互联 网 上 应 用 之 间 的 消息 发 送 。 因 
her ee lee nt 
应 用 之 间 进 行 通 信 。 随 着 SOAP 向 W3C 标准 的 演 Services 描述 语言 
Service pe 简单 对 象 
Interactions 访问 协议 
on 
标记 语言 


能 进行 了 推广 。 很 多 观点 认为 SOAP 是 最 重要 的 
Web 服务 。SOAP 将 信息 分 为 三 个 部 分 : 一 个 可 选 
的 标题 ， 必 需 的 主体 ， 可 选 的 附件 。 标 题 支持 传输 
过 程 中 的 处 理 ， 因 此 可 以 处 理 防火 墙 的 安全 问题 。 

下 面 的 例子 改编 于 http://en.wikipedia.org/ 图 8-16 ”Web 服务 协议 栈 
wiki/SOAP 上 显示 的 例子 ， 是 关于 Pine Valley 家 具 公 司 如 何 从 供应 商 请 求 SOAP 格式 的 产品 
言 息 。PVFC 需要 得 到 供应 商 产品 编号 为 32879 的 产品 。 


<soap:Envelope xmlns:soap=http://schemas.xmlsoap.org/soap/envelope/> 
<soap:Body> 
<getProductDetails xmlns=http://supplierexample.corn/ws 
<productID>32879</productID> 
</getProductDetails> 
</soap:Body> 
</soap:Envelope> 


供应 商 的 Web 服务 可 以 格式 化 其 应 答 消 息 ， 其 中 包含 相关 产品 的 需求 信息 ， 如 下 所 示 : 


<soap:Envelope xmlns:soap=http:/schemas.xmlsoap.org/soap/envelope/> 
<soap:Body> 
<getProductDetailsResponse xmIns=“suppliers.example.com/ws”"> 
<getProductDetailsResult> 
<productName>Dining Table</productName> 
<Finish>Natural Ash</Finish> 
<Price>800</Price> 
<inStock>True</inStock> 
</getProductDetailsResult> 
</getProductDetailsResponse> 
</soap:Body> 
</soap:Envelope> 


图 8-17 展示 了 应 用 程序 和 系统 与 Web 服务 的 交互 。 需 要 注意 的 是 对 于 企业 之 间或 从 客 
户 到 企业 的 事务 处 理 ，SOAP 处 理 器 创建 一 个 消息 信封 ， 允许 格 式 化 的 XML 数据 在 Web 中 
交换 。 因 为 SOAP 消息 连接 远程 站 点 ， 为 了 保持 数据 的 完整 性 ， 要 采取 适当 的 安全 措施 。 

在 过 去 的 几 年 里 ，Web 服务 作为 企业 和 客户 之 间 的 自动 通信 保证 ， 无 论 是 企业 或 零售 客 
户 ， 对 Web 服务 都 有 很 多 讨论 和 期 待 。 采 用 Web 服务 方式 主要 存在 交易 敏捷 性 、 安 全 性 和 
可 靠 性 等 问题 。 连 接 到 Web 上 的 计算 机 之 间 的 自动 通信 开放 系统 必须 进一步 发 展 与 安全 性 
和 可 靠 性 相 匹 配 的 传统 业务 应 用 。 

显然 ，Web 服务 将 继续 发 展 ， 一 些 组 织 通过 他 们 使 用 的 Web 服务 已 经 引起 了 广泛 的 
关注 。 无 论 是 亚马逊 (Amazon.com) 还 是 谷歌 ， 这 两 个 具有 较 高 知名 度 的 网 站 均 广泛 使 用 
Web 服务 。 谷 歌 程 序 于 2002 年 4 月 开始 允许 开发 者 直接 访问 它 的 搜索 数据 库 以 用 于 非 商业 
用 途 ， 并 建立 自己 的 数据 接口 。2002 年 7 月 亚马逊 提供 对 库存 数据 库 的 访问 。 结 合 博客 工 


变 ， 对 之 前 基于 特定 程序 之 间 的 特殊 基础 上 的 功 
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具 和 服务 ，API 允许 博客 作者 创建 一 个 一 步 到 亚马逊 相关 产品 的 链接 。 程 序 员 受 益 于 改进 的 
更 易于 访问 的 方式 ,使 客户 通过 更 多 有 效 的 搜索 获得 帮助 ， 同 时 使 亚马逊 和 谷歌 继续 提升 他 
们 的 品牌 影响 力 。 人 谷歌“ 亚马逊 Web 服务 文档 ”或 “谷歌 Web 服务 ”成 为 越 来 越 多 用 户 所 
熟知 的 免费 资源 和 机 会 。 





应 用 服务 需 


外 部 应 用 


图 8-17 Web 服务 部 署 
资料 来 源 : 基于 newcomer ( 2002 ) 


还 有 一 些 付 费 的 Web 服务 。 微 软 的 .NET 开发 者 可 以 使 用 微软 的 MapPoint Web 服务 ， 
相关 网 站 提供 基于 位 置 的 服务 (LBS)。MapPoint Web 服务 提供 可 以 在 任何 HTTP 连接 访问 
位 置 和 映射 的 功能 。MapQuest 提供 类 似 的 功能 。 支 付 安装 程序 费用 后 ， 用 户 可 以 选择 每 年 
或 者 每 月 的 支付 方式 ， 费 用 取决 于 交易 次 数 。 地 形 和 卫星 图 像 可 通过 MSR Maps 获取 ( 见 
http://msrmaps.com ) - 

Web 服务 的 日 益 普及 和 可 用 性 对 组 织 中 IT 应 用 和 功能 的 发 展 方式 产生 了 影响 。 一 种 新 
的 被 称 为 面向 服务 的 体系 结构 ( SOA ) 的 模式 得 以 立足 。SOA 是 以 某 种 方式 进行 相互 通信 的 
服务 的 集合 ， 通 常 是 传递 数据 或 协调 商业 活动 。 而 这 些 服务 不 一 定 是 Web 服务 ,但 Web 服 
务 是 主要 的 使 用 机 制 。SOA 不 同 于 传统 的 面 回 对 象 的 方法 ， 是 一 种 松 耦 合 和 可 互 操作 的 服 
务 。 软 件 组 件 具 有 很 好 的 可 重用 性 ， 同 时 可 以 在 不 同 的 开发 平台 上 运行 ， 如 Java 和 .NET。 
使 用 XML、SOAP 和 WSDL 使 建立 必要 的 连接 得 到 了 简化 。 

由 SOA 方式 引出 建立 一 个 支持 高 效 开发 应 用 的 建 模 、 设 计 和 软件 开发 过 程 。 已 经 采用 
这 种 方法 的 组 织 机 构 统 计 发 现 ， 开 发 时 间 至 少 减少 了 40 %。 组 织 机 构 不 仅 经 历 更 短 的 开发 
时 间 ， 也 希望 在 应 对 瞬息 万 变 的 商业 环境 中 能 够 充分 展示 更 大 的 灵活 性 。 


总 结 


客户 端 / 服 务 器 体系 结构 提供 的 商业 机 会 可 以 改善 计算 机 系统 ， 使 之 更 符合 自身 业务 需 
求 。 目 前 讨论 的 焦点 是 ， 如 何 建立 客户 端 / 服 务 器 和 大 型 数据 库 管 理 系 统 之 间 的 平衡 问题 。 
客户 端 /服务 器 体系 结构 在 互联 网 中 的 应 用 很 著名 ， 包 括 动态 数据 访问 。 客 户 端 /服务 夯 绪 
构 对 应 用 代码 部 分 进行 划分 后 ， 分 别 被 写 人 客户 端 或 服务 咒 以 达到 更 好 的 性 能 和 互 操作 性 。 
使 用 应 用 划分 有 望 提 高 开发 人 员 的 效率 , 但 开发 人 员 必 须 能 够 正确 理解 和 存放 每 个 操作 。 
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在 二 层 体系 结构 中 ， 客 户 端 管理 用 户 接 口 和 业务 逻辑 ， 而 数据 库 服 务 器 管理 数据 库存 
储 和 访问 。 这 种 体系 结构 减少 了 网 络 流 量 , 减少 了 对 客户 端的 依赖 ， 可 统一 管理 用 户 权 
限 、 完 整 性 检查 、 数 据 字 典 维护 和 数据 库 服 务 器 上 的 查询 和 更 新 处 理 。 对 于 二 层 应 用 ， 采 用 
VB.NET 和 Java 编写 的 例子 验证 了 从 数据 库 检 索 数 据 所 需 的 六 个 步骤 。 

三 层 体系 结构 包括 除 客户 端 和 数据 库 服务 器 层 以 外 的 一 个 附加 服务 器 ， 应 用 代码 可 以 存 
储 在 这 个 服务 器 上 。 这 种 方法 可 以 在 附加 的 服务 器 上 执行 业务 处 理 ， 从 而 产生 一 个 瘦 客 户 
端 。 三 层 体系 结构 的 优势 包括 可 扩展 性 、 技 术 灵 活性 、 更 低 的 长 期 成 本 、 更 好 的 系统 与 业务 
需求 匹配 、 改 进 的 客户 服务 水 平 、 竞 争 优势 以 及 降低 风险 。 但 短期 成 本 较 高 、 缺 乏 先 进 工 具 
的 使 用 和 培训 、 缺 乏 经 验 丰 富 的 人 员 、 标 准 不 兼容 以 及 终端 用 户 工 具 短缺 等 问题 对 采用 三 层 
或 n 层 体系 结构 带 来 了 挑战 。 

三 层 应 用 中 最 常见 的 类 型 是 基于 互联 网 的 Web 应 用 。 其 中 最 简单 的 形式 是 客户 端 浏览 
器 把 请 求 通过 网 络 发 送 到 Web 服务 。 如 果 发 送 的 请 求 需 要 从 数据 库 中 获取 数据 ，Web 服务 
器 将 构造 查询 ， 同 时 发 送 到 数据 库 服务 器 处 理 查询 并 且 返 回 查 询 结果 。 防 火 墙 用 于 限制 外 部 
对 公司 数据 的 访问 。 云 计算 有 可 能 成 为 未 来 几 年 中 三 层 应 用 中 的 流行 模式 。 

互联 网 架构 的 通用 组 件 包括 编程 和 可 标记 语言 、Web 服务 器 、 应 用 服务 器 、 数 据 库 服务 
器 、 数 据 库 驱动 程序 以 及 用 于 各 种 组 件 进行 相互 连接 的 中 间 件 。 为 了 帮助 大 家 了 解 如 何 创建 
Web 应 用 ， 本 书 提供 了 用 JSP 和 APS.NET 编写 的 三 层 应 用 ， 并 研究 了 这 些 应 用 中 与 数据 库 
相关 的 关键 问题 。 

最 后 ， 讨 论 了 数据 交互 标准 XML 在 Internet 中 的 作用 。 验 证 了 数据 库 中 XML 文档 存 
储 、 使 用 XML 的 XQuery 和 XPath 语言 进行 检索 以 及 把 XML 数据 转换 成 显示 文稿 格式 (如 
HTML) 的 相关 问题 。 此 外 ， 还 验证 了 多 种 基于 XML 的 技术 ， 如 UDDI、WSDL 和 SOAP 
等 ， 这 些 技术 使 SOA 和 Web 服务 变 得 更 丰富 ， 人 允许 公司 内 部 或 世界 各 地 不 同 的 应 用 之 间 进 
行 交 互 。 


关键 术语 


Application partitioning (应 用 划分 ) 

Application program interface ( API， 应 用 程序 编 
程 接口 ) 

Client/server system (客户 端 / 服 务 器 系统 ) 

Database server (数据 库 服务 器 ) 

eXtensible Markup Language ( XML ， 可 扩展 标记 
语言 ) 

eXtensible Stylesheet Language Transformation 
(XSLT， 可 扩展 样式 表 转 换 语 言 

Fat client( 胖 客户 痊 ) 

Middleware (中 间 件 ) 

Open Database Connectivity (ODBC， 开 放 式 数据 
库 连 接 ) 


Service-oriented architecture ( SOA ， 面 向 服务 的 
体系 结构 ) 

Simple Object Access Protocol ( SOAP， 简 单 对 象 
访问 协议 ) 

Thin client ( 瘦 客 户 端 ) 

Three-tier architecture (三 层 体系 结构 ) 

Universal Description, Discovery, and Integration 
(UDDI,， 通用 描述 、 发 现 与 集成 ) 

Web services ( Web 服务 ) 

Web Services Description Language (WSDL, Web 
服务 描述 语言 

XML Schema Definition (XSD，XML 模式 定义 ) 


复习 题 
1. 定义 下 列 术 语 : 
a. 应 用 划分 b. 应 用 编程 接口 (API) c. 客户 端 /服务 器 系统 
d. 中 间 件 e. 存储 过 程 f. 三 层 体系 结构 
g. Java 数据 库 连 接 (JDBC) h. XML 模式 i. Web 服务 
ET k. SOAP 


把 下 列 术语 与 合适 的 定义 匹配 起 来 : 

















客户 端 /服务 器 系统 a. 负责 处 理应 用 逻辑 和 表示 逻辑 的 客户 端 
应 用 程序 接口 (API) “bpb. 配 置 用 于 处 理 某 个 应 用 的 表示 层 和 业务 逻辑 处 理 的 个 人 计算 机 
胖 客户 端 c. 以 某 种 方式 进行 相互 通信 的 服务 集合 
数据 库 服务 器 d. 具有 方便 的 互 操 作 性 ， 并且 可 以 减少 程序 员 编 码 工作 的 软件 
中 间 件 e. 负责 数据 库存 储 和 访问 的 设备 
三 层 体 系 结构 f. 应 用 逻辑 组 件 分 布 系统 
瘦 客 户 端 g. 方便 前 端 程序 和 后 台数 据 库 服务 器 之 间 进 行 通信 的 软件 
XSD h. 三 层 客 户 端 / 服务 器 体系 结构 
SOA i. 用 于 定义 XML 数据 库 的 语言 
， 与 其 他 计算 方法 进行 对 比 ， 列 出 客户 端 / 服务 器 体系 结构 的 几 个 主要 优势 。 
， 对 比 下 列 术 语 : 
a. 二 层 体 系 结构 ; 三 层 体系 结构 b. 胖 客户 端 ; 瘦 客 户 端 
c. ODBC; JDBC d. XHTML; XSLT 
e. SQL; XQuery f. Web 服务 ; SOA 


.描述 二 层 体系 结构 的 优 缺 点 。 

.描述 三 层 体系 结构 的 优 缺 点 。 

， 描 述 创建 基于 Web 应 用 所 需 的 常用 组 件 。 

. 用 于 访问 数据 库 的 API 编程 语言 有 哪些 ? 

.常见 的 通过 典型 程序 访问 数据 库 的 六 个 步骤 是 哪些 ? 

.如 果 由 你 负责 开发 客户 端 / 服务 器 应 用 ， 你 会 如 何 确保 成 功 地 开发 ? 

. 云 计算 服务 的 三 种 常见 类 型 是 什么 ? 

. 有 哪 四 种 常见 方法 用 来 存储 XML 数据 ? 

.解释 说 明 为 什么 采用 XML 模式 是 采用 文档 类 型 声明 (DTD) 的 升级 。 

. 什么 是 XSLT， 它 与 XML 有 何不 同 ? 它 在 创建 Web 应 用 中 起 到 什么 样 的 作用 ? 
， 对 UDDI 进行 讨论 。 对 电话 簿 的 白色 、 黄 色 、 绿 色 页 面 进行 对 比 和 比较 。( 如 果 你 的 电话 德 中 没有 


绿色 页 面 ， 则 需要 从 另外 的 电话 夭 中 研究 绿色 页 面 的 功能 。) 


问题 与 练习 


2 


3， 


4. 


四 份 可 以 对 新 客户 应 用 系统 的 所 有 分 支 机 构 进行 处 理 的 客户 端 / 服务 器 解决 方案 的 评估 
告 。 你 准备 对 哪些 业务 特征 进行 评估 ， 对 哪些 技术 特征 进行 评估 ? 为 什么 ? 

解释 静态 Web 站 点 和 动态 站 点 之 间 的 区 别 。 动 态 站 点 具备 哪些 特征 可 以 更 好 地 支持 电子 商务 的 
发 展 ? 

从 历史 行为 分 析 ， 什 么 类 型 的 应 用 已 经 快速 转移 到 客户 端 /服务 器 数据 库 系统 ? 哪些 类 型 的 应 用 转 
移 得 较 慢 ， 为 什么 ? 你 认为 在 未 来 发 展 中 ,客户 端 /服务 器 数据 库 系统 与 大 型 数据 库 系统 的 使 用 比 
例 是 多 少 ? 

讨论 与 互联 网 应 用 开发 相关 的 语言 。 根 据 每 种 语言 为 应 用 提供 的 功能 对 语言 进行 归 类 。 不 一 定 使 用 


与 本 章 中 相同 的 分 类 方案 。 
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5， 查找 一 些 包含 如 图 8-10 和 图 8-11 所 示 的 动态 Web 站 点 代码 ， 并 且 如 这 些 图 中 一 样 对 每 段 代码 进 
行 和 注释， 尤其 注意 涉及 与 数据 库 相 互 作用 的 元 素 。( 提 示 : 通过 Google 查找 关键 词 “JSP” 和 “ASP 


NET”， 可 以 搜索 到 一 系列 代码 示例 。) 
6. 用 VB.NET 重新 编写 如 图 8-5 所 示 的 例子 。 
7. 用 Java 重新 编写 如 图 8-4 所 示 的 例子 。 


8. 观察 图 8-10 和 图 8-11 的 代码 示例 ， 假 设 不 是 从 本 地 服务 器 访问 数据 ， 而 是 从 提供 相应 的 应 用 服务 
右 ( 如 ASPNET) 和 数据 库 技 术 的 云 提 供 商 访问 数据 ， 代 码 有 没有 变化 ， 如 果 有 ， 请 写 出 相关 代 


但 段 。 


9. 访问 至 少 有 两 个 提供 云 数 据 库 服务 的 云 服 务 提 供 商 的 Web 网 站 。 使 用 这 些 网 站 上 列 出 的 云 数据 库 
服务 有 哪些 共同 的 优势 ? 如 果 不 知 道 从 哪里 开始 ， 可 以 尝试 访问 aws.amazon.com 或 cloud.oracle. 


com 两 个 网 站 。 


10. 构造 一 个 描述 导师 的 简单 XML 结构 ,包括 导师 的 姓 、 名 、 电 话 、 邮 箱 地 址 以 及 作为 导师 


(TUTOR ) 子 元 素 的 认证 日 期 。 


11. 采用 问题 与 练习 10 中 的 结构 ， 写 一 个 FLWOR 的 XQuery 表达 式 ， 要 求 只 列 出 导师 的 名 字 ， 并 且 


按 姓氏 字母 进行 排序 。 


12. 采用 问题 与 练习 10 中 的 结构 ， 写 一 个 XSLT 程序 ， 在 HTML 表 中 显示 导师 的 信息 。 
13. 讨论 Web 服务 如 何 有 效 集成 业务 应 用 和 数据 。 在 网 上 搜索 目前 使 用 XML、SOAP、UDDI 和 
WSDL 的 Web 服务 的 资源 。 至 少 找 出 其 中 三 个 并 讨论 它们 的 使 用 情况 ， 包 括 来 自 业 界 的 例子 。 
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www.w3.org/html/wg W3C 的 HTML 主页 。 

www.w3.org/Markup W3C 的 XHTML 主页 。 

www.w3.org/XML/Query W3C 的 XQuery 主页 。 

www.w3.org/XML/1999/XML-in-10-points W3C 的 “XML 中 in 10 points” 文 章 ， 它 叙述 了 基本 XML 
概念 。 

www.netcraft.com ”Netcraft Web 服务 器 调查 ， 它 跟踪 不 同 Web 服务 器 和 SSL 站 点 操作 系统 的 市 场 占 
有 率 。 

www.projectliberty.org ”自由 联盟 主页 。 在 此 可 以 下 载 开放 标准 规范 和 规范 的 草稿 。 

www.w3schools.com/default.asp Web 开发 者 网 站 ， 提供 从 基本 HTML 和 XHTML 到 高 级 XML、 
SQL、 数 据 库 、 多 媒体 以 及 WAP 相关 主题 的 Web 构建 的 教程 。 

www.ws-i.0rg ”Web 服务 互 操 作 组 织 (WS-I1) 的 主页 。 

www.oasis-open.org/home/index.php ”结构 化 信息 标准 促进 组 织 (OASIS) 的 主页 。 

XML.apache.org/cocoon Cocoon 项目, 它 是 Java Web 发 布 框架 ， 分 离 文 档 内 容 、 风 格 和 逻辑 ， 并 
且 人 允许 独立 设计 、 创 建 和 各 自 的 管理 。 
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学 习 目 标 
学 完 本 章 后 ， 读 者 应 该 能 够 : 
e 准确 定义 以 下 关键 术语 : 数据 仓库 ， 操 作 型 系统 ， 信 息 系统 ， 数 据 集 市 ， 独 立 数据 
集 市 ， 相 关 数 据 集 市 ， 企 业 数据 仓库 (EDW )， 操 作 型 数据 存储 (ODS)， 逻 辑 数据 集 
市 ， 实 时 数据 仓库 ,调和 数据 ， 派 生 数 据 ， 临 时 数据 ， 定 期 数据 ， 星 模式 ， 粒 度 ， 一 
致 维 ， 雪 花 模 式 ， 大 数据 ，NoSQL ， 联 机 分 析 处 理 (OLAP)， 关 系 OLAP (ROLAP)， 
多 维 OLAP (MOLAP)， 数 据 可 视 化 ， 数 据 挖掘 ， 数 据 治理 和 数据 管家 。 
给 出 在 信息 管理 者 的 需要 和 一 般 可 用 信息 之 间 经 常 出 现 “ 信 息 差 距 ”的 两 个 主要 原因 。 
列 出 当今 绝 大 多 数组 织 需要 数据 仓库 的 两 个 主要 原因 。 
命名 并 简要 描述 数据 仓库 结构 中 的 三 个 层次 。 
描述 星 模式 中 的 两 个 主要 组 件 。 

e 在 对 数据 库 维 数 给 出 可 靠 假 设 的 前 提 下 ， 估计 事实 表 的 行 数 和 大 小 (用 字 节 数 表 示 )。 

e 使 用 各 种 模式 来 设计 数据 集 市 ， 以 规范 化 或 去 规范 化 维 、 记 录 事 实 历 史 、 维 之 间 层 次 

性 联系 和 改变 维 属 性 的 值 。 

e 从 支持 决策 的 问题 中 开发 数据 集 市 的 需求 。 

引言 

如 今 ， 容易 获 取 的 高 质量 信息 在 商业 社会 中 是 非常 重要 的 。 考 虑 以 下 实际 发 生 的 情形 : 

2004 年 9 月 ,飓风 “弗朗西斯 ” 正 通 近 佛罗里达 州 的 大 西洋 海岸 。 在 1400 英里 ?之 外 
的 阿肯色 州 本 顿 维 尔 ， 沃 尔 玛 的 管理 者 们 已 经 做 好 了 准备 。 经 过 对 他 们 数据 仓库 中 在 数 周 之 
前 赂 风 “ 查 理 ” 造 访 佛罗里达 海湾 海岸 时 产生 的 460TB 销售 数据 的 分 析 ， 管 理 者 们 已 经 可 
以 预测 到 在 迈阿密 人 们 即将 最 需要 购买 什么 商品 。 显 然 ， 他 们 需要 手电 简 ， 并 且 沃 尔 玛 还 发 
现 他 们 同时 还 购买 了 草莓 味 的 Pop Tarts 以 及 啤酒 。 这 就 使 得 沃尔玛 可 以 提前 储藏 这 些 需 求 
量 大 的 商品 来 提供 给 顾客 并 防止 售 融 ， 从 而 获得 了 本 来 可 能 没有 的 收益 。 

除了 像 朵 风 这 样 特殊 的 情形 ， 通 过 学 习 每 个 顾客 的 购物 篮 里 买 了 什么 ， 沃 尔 玛 还 可 以 调 
整 价格 来 吸引 那些 想 买 廉价 商品 的 顾客 ， 这 是 因为 他 们 可 以 在 同一 个 购物 车 中 放 和 一些 利 
润 较 高 的 商品 。 详 细 的 销售 数据 还 可 以 帮助 沃尔玛 来 决定 针对 不 同 的 时 间 、 假 期 、 天 气 、 价 
格 以 及 分 店 等 情况 安排 多 少 收银 员 。 沃 尔 玛 的 数据 仓库 中 包含 各 种 销售 数据 ， 足 以 解答 飓风 
“弗朗西斯 ”到 来 时 产生 的 问题 ， 而 且 还 能 在 用 户 使 用 信用 卡 和 供 记 卡 购买 商品 时 与 其 他 个 
人 顾客 统计 数据 来 进行 匹配 。 在 这 家 公司 的 山姆 会 员 连 锁 店 中 ， 会 员 卡 会 提供 同样 的 个 人 身 
份 认证 。 使 用 这 些 身份 识别 数据 ， 沃 尔 玛 可 以 将 产品 销售 数据 与 位 置 、 收 入 、 房 价 和 其 他 个 
人 统计 数据 相关 联 。 这 样 的 数据 仓库 有 助 于 对 每 个 独立 消费 者 提供 最 合适 的 商品 推销 。 更 深 
入 一 点 ， 沃 尔 玛 还 可 以 将 这 些 销 售 数据 用 来 与 它 的 供应 商 们 进行 谈判 ， 以 在 配送 、 价 格 和 促 
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销 等 活动 上 获得 更 好 的 供应 链 。 所 有 这 一 切 都 可 以 通过 一 个 整合 的 、 全 方位 的 、 企 业 范围 的 
并 且 有 着 强力 分 析 工 具 的 数据 仓库 来 从 庞大 的 数据 中 提取 出 来 (改编 自 Hays，2004 ) 。 

鉴于 对 信息 的 高 度 重 视 以 及 近 些 年 来 在 信息 技术 上 的 发 展 ， 可 以 期 待 大 多 数组 织 会 拥有 
这 样 高 度 开 发 的 系统 来 为 管理 者 和 其 他 用 户 提 供 信 息 。 然 而 ， 事 实 并 非 如 此 。 实 际 上 ， 由 于 
有 海量 的 数据 ( PB 级 ) 和 太 多 的 数据 库 ， 大 部 分 组 织 对 他 们 拥有 的 信息 没有 达到 理想 的 使 
用 程度 。 管 理 者 们 常常 对 他 们 在 使 用 数据 和 信息 上 的 无 力 感到 诅 丧 。 这 样 的 情形 导致 了 一 些 
人 断言 所 谓 的 “商务 智能 ”是 一 个 矛盾 。 

现代 组 织 被 数据 所 淹没 , 但 是 却 又 饥 溜 于 信息 。 尽 管 这 是 一 个 比喻 ,但 看 起 来 十 分 准确 
地 摘 述 了 很 多 数组 织 面 临 的 问题 。 出 现 这 种 现象 的 原因 是 什么 ? 让 我 们 来 看 看 在 大 部 分 组 织 
中 都 存在 信息 差距 的 两 个 主要 (并 相关 ) 的 原因 。 

信息 差距 存在 的 第 一 个 原因 是 多 年 来 各 种 组 织 在 开发 他 们 的 信息 系统 和 支持 数据 库 时 使 
用 的 分 段 方法 。 本 文 强调 的 重点 是 一 个 仔细 设计 的 、 有 着 结构 化 开发 方法 的 系统 将 产生 一 个 
兼容 的 数据 库 集 合 。 然 而 ， 实 际 上 ， 由 于 时 间 和 资源 上 的 约束 ， 大 多 数组 织 采取 的 是 “一 次 
一 事 ” 的 开发 方法 ， 这 就 制造 了 很 多 信息 系统 的 孤岛 。 这 样 的 方法 不 可 避免 地 产生 了 一 群 不 
兼容 和 常常 冲突 的 数据 库 。 通 常 ， 数 据 库 一 般 建立 在 很 多 的 硬件 软件 平台 上 和 各 种 购买 的 应 
用 上 ， 是 各 种 组 织 兼 并 、 收 购 和 重组 的 结果 。 在 这 样 的 环境 下 ， 它 极其 复杂 ， 以 至 于 管理 者 
无 法 定位 到 用 户 的 精确 信息 。 

信息 差距 的 第 二 个 原因 是 大 部 分 系统 由 在 文 持 操作 型 处 理 ， 很 少 或 压根 没有 考虑 制定 决 
策 所 用 的 分 析 工 具 和 信息 。 操 作 型 处 理 也 叫 事 务 处 理 ， 它 获取 、 存 储 和 操作 数据 来 支持 一 个 
组 织 的 日 常 操作 。 它 在 数据 库 设 计 上 趋 铝 于 优化 与 事务 相关 的 小 数据 集 的 存 取 (例如 客户 、 
命令 以 及 相关 的 产品 数据 )。 信 息 型 处 理 ( informational processing) 是 数据 分 析 或 提供 支持 
决策 的 其 他 形式 的 信息 。 为 了 导出 信息 ， 它 需要 一 个 大 的 数据 “样本 ” (例如 在 数 年 内 ， 每 个 
销售 区 域 中 全 部 商品 的 销售 数据 )。 大 部 分 内 部 开发 的 系统 或 者 从 外 部 销售 商 购 买 的 系统 都 
支持 操作 型 处 理 ， 而 几乎 不 考虑 信息 型 处 理 。 

数据 仓库 是 连接 信息 差距 的 桥梁 ， 它 巩固 和 整合 了 内 部 及 外 部 来 源 的 信息 并 将 其 安排 成 
一 种 有 意义 的 格式 ， 使 得 可 以 做 出 精确 和 及 时 的 商业 决策 。 它 支持 管理 者 、 决 策 者 和 商业 分 
析 者 通过 各 式 应 用 来 做 出 复杂 的 商业 决策 ， 这 些 应 用 有 趋势 分 析 、 目 标 营 销 、 葛 争 分 析 、 客 
户 关系 管理 等 。 数 据 仓 库 已 经 演化 为 在 不 干扰 现 有 操作 型 处 理 的 情况 下 满足 上 述 需求 。 

基于 Web 的 客户 交互 的 增长 使 得 现在 的 情形 变 得 更 有 趣 并 且 更 实时 。 在 一 个 组 织 的 
Web 站 点 上 客户 和 供应 商 的 活动 提供 了 一 笔 丰 富 的 点 击 数 据 来 帮助 理解 行为 和 偏好 ， 并 且 提 
供 了 一 个 独特 的 机 会 来 进行 正确 的 信息 交流 (例如 提供 交叉 交易 信息 )。 一 些 扩展 的 细节 (全 
如 时 间 、IP 地 址 、 访 问 过 的 页 面 、 请 求 页 面 的 内 容 、 链 接 、 在 页 面 上 的 停留 时 间 等 ) 都 可 以 
在 不 被 发 现 的 情况 下 获得 。 这 些 数 据 与 客户 交易 、 付 款 、 退 货 、 查 询 以 及 其 他 历史 信息 通过 
不 同 的 事务 系统 综合 到 了 数据 仓库 中 ， 可 以 用 于 个 性 化 页 面 。 这 些 合理 并 且 主 动 的 交互 可 以 
使 得 客户 和 商业 合作 伙伴 更 加 满意 ， 并 导致 了 更 加 合算 的 商业 联系 。 一 个 相似 的 决策 数据 增 
长 发 生 在 不 断 增长 的 RFID (无 线 射 频 识 别 ) 和 GPS (全 球 定 位 系统 ) 数据 的 使 用 上 ， 它 们 可 
以 用 于 跟踪 货物 、 库 存 以 及 人 的 移动 。 

本 章 概述 了 数据 仓库 。 这 一 非常 广泛 的 主题 通常 需要 一 整 本 书 来 讲述 ， 尤 其 是 重点 讲述 
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商务 智能 这 个 主题 时 ， 为 此 大 部 分 有 关 这 个 主题 的 书籍 只 涉及 其 中 某 个 方面 ， 比 如 数据 仓 
库 的 设计 和 管理 、 数 据 质量 和 治理 或 者 商务 智能 。 我 们 关注 的 是 两 个 和 数据 库 管理 内 容 相 关 
的 领域 : 数据 仓库 的 数据 体系 结构 和 数据 库 设计 。 你 首先 会 学 习 数 据 仓 库 如 何 与 现 有 的 操作 
型 系统 中 的 数据 库 相 关联 ; 之 后 学 习 数 据 仓库 环境 的 三 层 数 据 体系 结构 ; 然后 展示 数据 仓库 
实现 中 使 用 最 频繁 的 特定 数据 库 设计 元 素 。 接 下 来 介绍 最 新 的 数据 仓库 方法 ， 即 列 式 数 据 





后 将 学 习 用 户 如 何 与 数据 仓库 交互 ,包括 联机 分 析 处 理 、 数 据 挖 掘 和 数据 可 视 化 。 最 后 一 个 
主题 架 起 了 本 书 与 数据 仓库 最 常 被 使 用 的 领域 一 一 商务 智能 之 间 的 桥梁 。 

数据 仓库 需要 提取 现 有 操作 型 系统 中 的 数据 ， 净 化 和 转化 数据 用 于 决策 制定 ， 再 载 人 它 
们 进入 一 个 数据 仓库 一 一 这 个 过 程 通常 被 称 为 “提取 一 转化 - 载 人 (ETL)》”。 在 这 个 过 程 中 ， 
一 个 固有 的 部 分 是 保证 数据 质量 ， 这 在 综合 不 同系 统 的 数据 时 是 最 关心 的 步骤 。 数 据 质量 和 
数据 治理 在 数据 仓库 以 及 相关 活动 中 非常 重要 ， 本 章 最 后 会 简单 描述 这 两 个 必需 的 主题 。 


9.1 数据 仓库 的 基本 概念 


数据 仓库 是 一 个 面向 主题 的 、 集 成 的 、 时 变 的 和 不 可 更 新 的 数据 集合 ， 用 于 支持 管理 决 
策 程 序 和 商务 智能 (Inmon 和 Hackathorn，1994 )。 其 中 每 个 关键 词 的 定义 如 下 : 
e 面向 主题 数据 仓库 是 根据 企业 的 关键 主题 (或 高 层 实体 ) 组 织 的 。 A 
客户 、 患 者 、 学 生 、 产 品 和 时 间 等 。 
e 集成 ”数据 仓库 中 存放 的 数据 使 用 一 致 的 命名 规则 、 格 式 、 编 码 结构 和 相关 特征 来 定 
义 ， 相 关 特 征 来 自 于 许多 内 部 系统 的 记录 和 组 织 外 部 的 资源 。 这 意味 着 数据 仓库 中 存 
放 着 “真实 ”的 版 本 。 
e 时 变 数据 仓库 中 的 数据 包含 一 个 时 间 维 ， 这样 它们 可 以 用 于 人 研究 趋势 和 改变 。 
e 不 可 更 新 re 但 是 不 能 被 终端 用 户 所 更 新 。 
数据 仓库 并 不 仅仅 是 一 个 组 织 中 的 全 部 操作 型 数据 库 的 综合 。 因 为 它 着 重 于 商务 智能 、 
外 部 数据 和 时 变数 据 re 因此 数据 仓库 是 一 种 特别 的 数据 库 。 幸运 的 是 ， 
你 不 需要 为 了 使 用 数据 仓库 而 另外 学 习 一 套 不 同 的 数据 库 技能 。 大 部 分 数据 仓库 是 关系 数据 
库 ， 用 于 优化 决策 支持 而 不 是 操作 型 数据 处 理 。 所 以 在 本 书 前 面 的 章节 里 你 学 习 到 的 全 部 东 
西 在 这 儿 仍 然 适用 。 这 一 章 中 ， 你 会 学 习 到 新 增添 的 特性 、 数 据 库 设计 结构 和 概念 来 使 得 数 
据 仓 库 变 得 特别 。 
数据 仓库 实现 ( data warehousing) 是 一 个 组 织 创建 并 维护 数据 仓库 、 提 取 含 义 并 通过 这 
些 数据 仓库 获得 决策 信息 资产 的 过 程 。 成 功 的 数据 仓库 实现 需要 如 下 已 证 明 的 数据 仓库 实现 
经 验 : 健全 的 工程 管理 、 强 力 的 组 织 承 诺 和 正确 的 技术 决策 。 


9.1.1 数据 仓库 简 史 


数据 仓库 是 近 些 年 来 信息 系统 领域 发 展 进 步 的 结果 。 以 下 是 一 些 关 键 的 技术 发 展 : 

e 数据 库 技术 的 改进 ， 尤 其 是 关系 数据 模型 和 关系 数据 库 管理 系统 (RDBMS ) 的 发 展 。 

e 计算 机 硬件 的 发 展 ， 尤 其 是 大 容量 存储 右 和 并 行 计算 机 体系 结构 的 出 现 。 
终端 用 户 计算 的 出 现 ， 由 强大 的 、 直 观 的 界面 和 工具 助 推 。 

se 中 间 件 产品 的 发 展 使 得 企业 数据 库 可 以 在 不 同 的 平台 之 间 相 连 (Hackathorn，1993 ) 。 
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促进 数据 仓库 发 展 的 关键 发 现 是 认识 (并 且 随 后 定义 ) 了 操作 型 (或 事务 处 理 型 ) 系统 
(有 时 也 叫 作 记录 系统 ， 因 为 其 任务 是 保存 组 织 官方 的 、 合 法 的 记录 ) 和 信息 (或 决策 支持 ) 
系统 之 间 的 基本 差别 。Devlin 和 Murphy (1988) 基于 这 个 区 别 发 表 了 第 一 篇 描述 数据 仓库 体 
系 结构 的 文章 。 在 1992 年 ，Inmon 出 版 了 第 一 本 关于 数据 仓库 的 书籍 ， 他 随后 也 成 为 这 一 
领域 著作 最 多 的 专家 之 一 。 


9.1.2 数据 仓库 的 需求 


当今 大 多 数组 织 需 要 数据 仓库 的 两 个 主要 原因 是 : 

1 ) 商业 需要 高 质量 信息 的 一 个 集成 的 企业 范围 视图 。 

2 ) 信息 系统 部 门 必须 将 信息 型 系统 和 操作 型 系统 区 分 出 来 以 便 显 著 提高 管理 公司 数据 
的 性 能 。 

1. 企业 范围 视图 的 需求 

操作 型 系统 中 的 数据 一 般 是 分 段 的 且 不 一 致 的 ， 即 所 谓 的 数据 孤岛 。 它 们 通常 也 分 布 在 
不 相 容 的 硬件 和 软件 平台 上 。 例 如 ， 某 个 包含 客户 数据 的 文件 可 能 位 于 一 个 基于 UNIX 的 服 
务 器 的 Oracle DBMS 中 ， 另 一 个 文件 可 能 位 于 一 台 IBM 主机 的 DB2 DBMS 中 。 而 对 于 决 
策 需 求 ， 通 常 需要 提供 信息 的 单个 企业 视图 。 

为 了 理解 导出 单个 企业 视图 的 难度 ， 可 以 看 一 下 图 9-1 里 的 一 个 简单 例子 。 图 中 展示 了 
位 于 3 个 不 同 记 录 系 统 的 3 个 表 ， 每 个 表 包 含 着 相似 的 学 生 数 据 。 表 STUDENT DATA 来 自 
班级 注册 系统 ， 表 STUDENT EMPLOYEE 来 自 人 员 系 统 , 表 STUDENT HEALTH 则 来 自 一 
个 健康 中 心 系统 。 每 个 表 都 包含 着 关于 学 生 的 某 些 唯一 的 数据 ， 但 是 即使 是 公共 的 数据 (如 
学 生 姓名 ) 也 使 用 不 同 的 格式 存储 。 


STUDENT DATA 


El 


ra | 


STUDENT EMPLOYEE 


oo ms oe 
123-45-6789 | 1218 Elk Drive, Phoenix, AZ 91304 sols | | 
389-21-4062 | 134 Mesa Road, Tempe, AZ 90142 anlio | 


STUDENT HEALTH 


Mark T. Enright | 483-1967 123-45-6789 SN 
Elaine R. Smith | 555-7828 | ? 389-21-4062 Wm 


图 9-1 蜡 构 数据 的 例子 
假设 你 想 获得 每 个 学 生 的 概要 信息 ， 将 全 部 数据 整合 到 一 种 文件 格式 下 。 以 下 这 些 问 题 
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肯定 需要 解决 : 


不 一 致 的 键 结构 ”前 两 个 表 的 主键 是 某 种 形式 的 学 生 社保 号 ， 而 STUDENT HEALTH 表 
的 主键 是 StudentName (学 生 姓名 )。 

同义词 ”在 表 STUDENT DATA 中 ， 主 键 名 是 StudentNo， 而 在 表 STUDENT EMPLOYEE 
中 主键 名 是 StudentID (在 第 4 章 已 经 讨论 过 同义词 的 问题 )。 

自由 格式 字段 与 结构 字段 表 STUDENT HEALTH 中 ，StudentName 是 单个 字段 ， 
在 表 STUDENT DATA 中 ，StudentName 分 解 成 了 它 的 组 成 部 分 : LastName、MI 和 
FirstName。 

不 一 致 的 数据 值 Elaine Smith 在 表 STUDENT DATA 和 表 STUDENT HEALTH 中 有 
两 个 不 同 的 电话 号 码 。 这 是 一 个 错误 ， 还 是 他 有 两 个 电话 号 码 ? 

缺失 数据 表 STUDENT HEALTH 中 ，Elaine Smith 的 Insurance 值 人 缺失， 这 个 值 要 
如 何 定位 ? 


这 个 简单 的 例子 说 明了 设计 单个 企业 视图 的 必要 性 ， 但 是 却 没有 涉及 问题 的 复杂 性 。 现 
实生 活 中 的 一 个 场景 可 能 有 几 十 〈 几 百 ) 个 文件 和 几 千 〈 几 和 百 万 ) 条 记录 。 

为 什么 组 织 需 要 把 数据 从 众多 系统 的 记录 中 收集 起 来 ? 最 终 原因 是 为 了 获得 更 多 利润 ， 
提高 部 争 力 ， 增 加 客户 数量 。 这 可 以 通过 增加 决策 速度 和 灵活 性 、 改 进 商 业 过 程 或 更 加 理解 
客户 行为 等 方法 来 实现 。 回 到 之 前 的 例子 ， 学 校 管理 者 可 能 想 调查 学 生 的 学 习 成 绩 是 否 和 健 
康 以 及 学 习 时 间 有 关 ， 选 修 某 些 课程 是 否 和 学 生 健 康 有 关 ， 或 者 是 否 需 要 花费 更 多 来 帮助 成 
绩 不 好 的 学 生 ， 例 如 提供 医疗 支出 或 其 他 支出 。 总 而 言 之 ,组 织 中 的 一 些 倾向 鼓励 了 对 数据 
仓库 的 需求 ， 这 些 倾 向 包括 : 


没有 单个 的 记录 系统 ”几乎 没有 组 织 只 有 一 个 数据 库 。 这 看 起 来 很 奇怪 ， 不 是 吗 ? 回 
想 一 下 在 第 1 章 讨 论 过 的 使 用 数据 库 和 使 用 单个 文件 处 理 系统 的 原因 ， 因 为 在 不 同 操 
作 环 境 下 对 数据 有 着 不 同 的 要 求 ， 因 为 企业 的 合并 和 收购 ， 因 为 组 织 规模 的 扩大 ， 所 
以 需要 多 个 操作 型 数据 库 。 

多 个 系统 不 同步 ”即使 可 能 ， 将 分 离 的 数据 库 合 并 也 很 困难 。 即 使 元 数据 是 可 控制 的 
而 且 是 由 一 个 数据 管理 者 所 创建 的 ， 同 一 个 属性 的 数据 值 也 不 一 定 一 致 。 这 是 因为 更 
新 周期 不 同 ， 每 个 系统 获得 同一 个 数据 的 位 置 也 不 同 。 所 以 为 了 得 到 一 个 统一 的 组 织 
视图 ， 不 同系 统 中 的 数据 必须 定期 统一 同步 到 男 一 个 数据 库 中 。 可 以 看 到 实际 上 有 两 
种 这 样 的 综合 数据 库 一 一 操作 型 数据 存储 和 企业 数据 仓库 ， 两 者 都 在 讨论 的 数据 仓库 
主题 的 范围 内 。 

组 织 想 用 一 种 平衡 的 方式 来 分 析 活 动 ” 许多 组 织 已 经 实现 了 某 些 形式 的 平衡 计 分 
卡 一 一 在 金融 、 人 员 、 客 户 满意 度 、 产 品质 量 以 及 其 他 一 些 参 数 上 同时 度量 。 为 了 保 
证 这 种 多 维 的 组 织 视 图 能 表示 一 致 的 结果 ， 需 要 一 个 数据 仓库 。 当 平衡 计 分 卡 出 现 问 
题 的 时 候 ， 使 用 数据 仓库 的 分 析 软 件 可 以 进行 “下 钻 ”“ 切 片 和 切 块 、 可视化 以 及 
通过 其 他 一 些 方法 挖掘 商务 智能 。 

客户 关系 管理 ”各 行业 的 组 织 都 意识 到 将 客户 在 各 个 接触 点 的 交互 组 成 一 个 完整 的 拼 
图 有 很 大 价值 。 不 同 的 接触 点 (例如 对 于 银行 ， 接 触 点 包括 ATM、 网 上 银行 、 柜 员 、 
电子 转账 、 投 资 组 合 管理 和 贷款 ) 是 由 分 散 的 操作 型 系统 支持 的 。 所 以 当 一 个 用 户 是 
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来 进行 一 笔 大 的 、 非 典型 的 自动 存款 业务 时 ， 如 果 没 有 数据 仓库 ， 一 个 柜员 可 能 不 知 
道 要 将 一 个 银行 的 基金 出 售 给 客户 。 想 获得 一 个 客户 的 完整 活动 拼图 需要 来 自 不 同 操 
作 型 系统 的 综合 数据 。 
e。 供应 商 关 系 管理 对 于 很 多 组 织 来 说 ， 管 理 供应 链 已 经 成 为 减 小 开销 和 提高 产品 质量 
的 一 种 重要 方式 。 组 织 想 基于 供应 商 的 各 种 活动 的 完整 拼图 建立 一 种 战略 供应 伙伴 关 
系 ， 例 如 付 账 、 会 谈 交 货 日 期 、 控 制 质量 、 定 价 、 支 持 等 。 关 于 这 些 活 动 的 数据 可 能 
分 散在 不 同 的 操作 型 系统 中 (例如 账单 支付 、 运 送 和 接收 、 生 产 安排 和 维护 )。ERP 
系统 通过 将 许多 这 样 的 数据 放 进 一 个 数据 库 来 改进 了 这 种 情形 。 然 而 ，ERP 系统 趋向 
于 设计 成 优化 操作 型 (而 不 是 信息 型 或 分 析 型 ) 处 理 。 下 面 将 会 加 以 讨论 。 
2. 区 分 操作 型 系统 和 信息 型 系统 的 需求 
操作 型 系统 是 一 个 基于 当前 数据 运行 实时 商业 活动 的 系统 。 例 如 销售 订单 处 理 、 预 订 系 
统 、 患 者 挂号 系统 等 。 操 作 型 系统 必须 处 理 大 量 相 对 简单 的 读 / 写 事务 并 提供 迅速 的 响应 。 
操作 型 系统 也 叫 作 记 录 系 统 。 
信息 型 系统 是 基于 历史 数据 和 预测 数据 来 支持 决策 的 系统 。 该 系统 同样 用 于 复杂 的 查询 
和 数据 挖掘 应 用 。 例 如 销售 趋势 分 析 、 客 户 分 类 、 人 力 资 源 规划 等 。 
操作 型 系统 和 信息 型 系统 的 关键 区 别 见 表 9-1。 这 两 类 系统 几乎 在 每 一 种 比较 中 都 有 着 
非常 不 同 的 特征 ， 尤 其 是 有 着 非常 不 同 的 用 户 群 。 操 作 型 系统 一 般 被 营业 员 、 销 售 员 、 管 理 
员 以 及 其 他 进行 商业 事务 的 人 员 所 使 用 ， 而 信息 型 系统 的 用 户 则 是 经 理 、 执 行 官 、 商 业 分 析 
家 和 客户 ， 这 些 人 通常 正在 搜索 状态 信息 或 者 是 决策 者 。 
表 9-1 操作 型 系统 和 信息 型 系统 的 比较 


特征 操作 型 系统 信息 型 系统 
主要 目的 | 在 现 有 基础 上 运行 商业 活动 支持 管理 者 决策 


数据 类 型 | 当前 商业 状态 的 表示 历史 快照 和 预测 








主要 用 户 | 营业 员 、 销 售 员 、 管 理 员 经 理 、 商 业 分 析 家 、 客 户 
应 用 范围 | 狭窄、 预定 、 简 单 的 更 新 和 查询 广泛 、 特 殊 、 复 杂 的 查询 和 分 析 

没 计 目 标 容易 访问 和 使 用 

证 对 表 的 一 行 或 者 一 些 行进 行 许多 不 变 的 更 新 和 查询 |， 定期 对 许多 或 全 部 行进 行 批量 更 新 和 查询 





区 分 操作 型 系统 和 信息 型 系统 的 需求 主要 基于 以 下 三 所: 

1 ) 数据 仓库 将 分 散在 不 同 操作 型 系统 中 的 数据 集中 起 来 ， 并 使 它们 可 用 于 支持 决策 的 
应 用 。 
2 ) 一 个 合适 的 数据 仓库 设计 改进 了 数据 的 质量 和 一 致 性 从 而 提升 了 数据 的 价值 。 
3 ) 一 个 独立 的 数据 仓库 消除 了 在 信息 型 应 用 和 操作 型 处 理 混 杂 时 的 许多 资源 竞争 。 


9.2 数据 仓库 体系 结构 


数据 仓库 的 体系 结构 已 经 有 了 很 大 发 展 ， 组 织 在 建立 数据 仓库 时 有 很 大 的 考虑 范围 。 这 
里 关注 为 大 多 数 实现 奠定 基础 的 两 种 核心 结构 。 第 一 种 是 自 底 向 上 的 增 量 式 的 三 层 体 系 结 
构 ; 第 二 种 也 是 三 层 数据 体系 结构 ,但 通常 自 顶 向 下 ， 强 调 更 多 的 协调 和 企业 范围 的 视角 。 
虽然 这 两 种 是 不 同 的 方法 ,但 是 它们 之 间 有 很 多 相似 的 特征 。 
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9.2.1 独立 的 数据 集 市 数据 仓库 环境 


数据 仓库 的 独立 数据 集 市 体系 结构 如 图 9-2 所 示 。 建 立 这 样 的 体系 结构 需要 4 个 基本 步 
又 (图 9-2 中 从 左 向 右 ): 

1 ) 从 各 种 内 部 和 外 部 资源 系统 的 文件 和 数据 库 中 提取 数据 。 在 一 个 大 的 组 织 中 ， 有 有 几 
十 甚至 几 百 个 这 样 的 文件 和 数据 库 。 

2 ) 来 自 各 种 资源 系统 的 数据 在 载 人 数据 集 市 之 前 先进 行 转化 并 集成 。 如 果 在 数据 转化 
和 集成 中 发 现 错误 ， 会 向 资源 系统 提交 事务 以 修正 错误 。 数 据 仓 库 被 视 为 数据 集 市 的 集合 。 

3 ) 数据 仓库 是 一 个 物理 上 不 同 的 数据 库 集合 ， 它 为 决策 提供 支持 ， 既 包含 详细 数据 又 
包含 总 体 数据 。 

4 ) 用 户 使 用 各 种 查询 语言 和 分 析 工 具 来 访问 数据 仓库 。 结 果 (例如 预测 ) 可 能 会 被 反 
馈 给 数据 仓库 和 操作 型 数据 库 。 

资源 数据 系统 数据 中 转 区 数据 和 元 数据 存储 区 终端 用 户 表 示 工 具 








2 
并 


SR 


Ps 






建 模 / 查询 结果 
图 9-2 独立 数据 集 市 数据 仓库 体系 结构 





数据 的 提取 和 载 入 是 定期 进行 的 一 一 可 能 是 每 天 、 每 周 或 每 月 。 因 此 ， 数 据 仓库 中 经 常 
没有 也 不 需要 有 当前 数据 。 需 要 记 住 ， 数 据 仓库 不 (直接 ) 支持 操作 型 事务 处 理 ， 虽然 它 其 
中 可 能 放 着 事务 数据 (但 更 可 能 是 存放 着 事务 的 总 结 和 状态 变量 (如 账户 余额 或 库存 水 平 ) 
的 快照 )。 对 于 大 多 数 的 数据 仓库 应 用 ， 用 户 并 不 是 要 寻找 一 个 具体 事务 的 反应 ， 而 更 多 的 
是 想 通过 数据 仓库 的 一 个 大 子 集 来 了 解 组 织 的 趋势 和 模式 。 最 少 会 有 5 个 季度 的 数据 会 存储 
在 数据 仓库 中 ， 这 样 至 少 可 以 分 析出 一 整 年 的 趋势 和 模式 。 过 时 的 数据 可 能 会 被 清除 或 者 存 
档 。 之 后 会 看 到 一 个 先进 的 数据 仓库 体系 结构 一 一 实时 数据 仓库 ， 它 建立 在 一 个 对 当前 数据 
不 同 需求 的 假设 上 。 

与 本 章 之 前 讨论 的 一 些 原则 相反 ， 独 立 数据 集 市 方法 并 不 建立 一 个 数据 仓库 ， 而 是 建立 
多 个 分 散 的 数据 集 市 ， 每 个 都 建立 在 数据 仓库 的 基础 上 ， 而 不 是 事务 处 理 数 据 库 技术 。 数 据 
集 市 是 一 个 范围 受到 限制 的 数据 仓库 ， 它 为 某 个 特定 终端 用 户 组 的 决策 应 用 专门 定制 。 它 的 
内 容 来 自 独立 的 ETL 处 理 (对 于 如 图 9-2 所 示 的 独立 数据 集 市 )， 或 者 来 自 数据 仓库 ， 下 面 
两 节 将 讨论 这 个 问题 。 数 据 集 市 用 于 优化 明确 定义 的 和 可 以 预见 的 应 用 的 性 能 ， 有 时 包括 一 





296 徊 四 部 分 实 现 


个 或 一 些 查询 。 例 如 ， 一 个 组 织 可 能 有 一 个 市 场 数据 集 市 、 一 个 金融 数据 集 市 和 一 个 供应 链 
数据 集 市 等 来 支持 已 知 的 分 析 处 理 。 每 个 数据 集 市 可 以 使 用 不 同 的 工具 构建 ， 例 如 ， 金 融 数 
据 集 市 可 以 使 用 专用 多 维 工 具 (如 Hyperion 公司 的 Essbase) 构建 ， 销 售 数据 集 市 可 以 使 用 
更 通用 的 数据 仓库 平台 (如 Teradata) 构建 ， 并 使 用 MicroStrategy 和 其 他 工具 来 做 报表 、 进 
行 查询 和 对 数据 可 视 化 。 

我 们 之 后 会 给 出 不 同 数据 仓库 体系 结构 间 的 一 个 比较 ， 但 是 现在 就 可 以 看 出 独立 数据 集 
市 策略 的 一 个 明显 特征 : 终端 用 户 需 要 访问 分 散 的 数据 集 市 中 数据 时 的 复杂 性 〈 从 连接 全 部 
数据 集 市 和 终端 用 户 表现 工具 的 互相 交错 的 连 线 上 可 以 看 出 )。 这 个 复杂 性 不 仅 由 于 需要 访 
问 分 散 的 数据 集 市 中 数据 库 的 数据 ， 还 可 能 由 于 新 一 代 不 一 致 数据 系统 一 一 数据 集 市 所 导 
致 。 如 果 有 一 组 监 所 有 数据 集 市 的 元 数据 ， 并 且 在 数据 中 转 区 域 进 行 全 部 数据 集 市 的 一 致 性 
维护 活动 (例如 图 9-2 数据 中 转 区 域 中 的 “一 致 维 ”)， 那 么 对 于 用 户 的 复杂 性 就 会 减 小 。 图 
9-2 中 ，ETL 处 理 的 复杂 性 不 是 很 明显 ， 但 实际 上 ， 要 为 每 个 独立 数据 集 市 建立 转化 和 载 人 
步骤 。 

独立 数据 集 市 经 常 由 于 组 织 进行 一 系列 的 短期 商业 目标 而 被 建立 。 有 限 的 短期 目标 可 以 
与 建立 一 个 相 比 之 下 较为 低 成 本 ( 钱 和 组 织 资 本 ) 的 独立 数据 集 市 兼容 。 然 而 ， 围 绕 一 些 不 
同 的 短期 目标 设计 数据 仓库 环境 意味 着 失去 了 长 远 目 标的 灵活 性 和 应 对 商业 环境 变化 的 能 
力 。 而 应 变 能 力 对 于 决策 支持 十 分 重要 。 在 组 织 上 和 政治 上 创建 分 散 的 小 数据 仓库 要 比 让 全 
部 组 织 方 同意 一 个 组 织 视图 来 建立 一 个 中 心 数据 仓库 容易 许多 。 而 且 ， 某 些 数据 仓库 技术 有 
技术 上 对 其 支持 的 数据 仓库 大 小 的 限制 ， 之 后 会 称 其 为 可 扩展 性 问题 。 因 此 ， 如 果 你 在 理解 
尔 的 数据 仓库 需求 之 前 先 将 自己 局 限 在 某 一 特定 的 数据 仓库 技术 集合 上 ， 技 术 可 能 比 商 业 更 
能 决定 数据 仓库 的 体系 结构 。 下 一 节 会 讨论 独立 数据 集 市 体系 结构 相 较 于 它 的 主要 苋 争 对 手 
的 体系 结构 的 优点 和 缺点 。 


9.2.2 相关 数据 集 市 和 操作 型 数据 存储 体系 结构 : 一 个 三 层 方 法 


图 9-2 所 示 的 独立 数据 集 市 体系 结构 有 着 几 个 重要 的 局 限 性 (Marco, 2003; Meyer 1997 ): 

1 ) 为 每 个 数据 集 市 都 要 开发 一 个 独立 的 ETL 流程 ， 这 会 产生 大 量 的 元 余数 据 并 且 需 要 
化 费 很 多 精力 。 

2 ) 数据 集 市 之 间 可 能 会 不 一 致 ， 因 为 它们 由 不 同 的 技术 开发 。 这 还 可 能 导致 它们 不 能 
提供 一 个 涉及 重要 主题 的 清晰 企业 范围 视图 ， 例 如 客户 、 供 应 商 、 产 品 等 主题 。 

3 ) 没有 能 力 下 钻 更 详细 的 细节 或 与 其 他 数据 集 市 或 共享 数据 知识 库 相 关 的 事实 ， 所 以 
分 析 是 有 局 限 的 或 者 是 困难 的 (例如 在 分 散 平 台 上 不 同 的 数据 集 市 之 间 做 连接 )。 本 质 上 ， 
数据 集 市 的 数据 关联 是 一 个 由 数据 仓库 外 部 用 户 所 执行 的 任务 。 

4 ) 扩大 规模 的 成 本 非常 昂贵 ， 因 为 每 个 新 应 用 需要 建立 一 个 独立 的 数据 集 市 时 ， 都 需 
要 重复 全 部 的 提取 和 载 入 步骤 。 通 常 ， 操 作 型 系统 在 批量 提取 数据 时 会 有 受 限 制 的 时 间 窗 ， 
所 以 在 某 些 时 候 ， 在 操作 型 系统 上 的 载 入 需要 一 些 新 的 技术 并 伴随 额外 的 开销 。 

5 ) 维护 分 散 的 数据 集 市 间 的 一 致 性 也 会 有 很 高 的 开销 。 

关于 独立 数据 集 市 的 价值 ， 曾 经 有 过 激烈 的 争论 。Kimballl ( 1997 ) 强力 文 持 独立 数 
据 集 市 的 开发 作为 决策 支持 系统 分 段 开 发 的 一 种 辅助 决策 策略 。Armstrong ( 1997 )、Inmon 
( 1997，2000 ) 和 Marco ( 2003 ) 指出 了 前 面 所 述 的 5 个 以 及 更 多 的 局 限 性 。 关 于 独立 数据 
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集 市 的 实际 价值 主要 有 下 面 两 方面 的 争论 : 

1 ) 关于 实现 数据 仓库 环境 使 用 的 分 段 方法 的 性 质 ， 争 论 的 焦点 在 于 每 个 数据 集 市 是 否 
应 该 以 一 种 自 底 向 上 的 方式 从 企业 范围 决策 支持 数据 的 子 集 演变 而 来 。 

2 ) 为 一 个 则 围绕 合适 的 分 析 处 理 的 数据 库 体 系 结构 ， 和 争论 的 焦点 在 于 数据 集 市 数据 库 
应 该 规范 化 到 何 种 程度 。 

这 两 方面 争论 的 本 质 会 贯穿 本 章 。 在 章 末 设计 了 一 道 练习 来 更 深入 地 研究 这 些 争 论 。 

早期 提出 的 用 于 解决 独立 数据 集 市 局 限 性 的 最 流行 的 方法 是 使 用 一 种 3 层 方法 一 一 相关 
数据 集 市 和 操作 型 数据 存储 体系 结构 (如 图 9-3 所 示 )。 在 这 里 ， 操 作 型 数据 存储 是 一 个 新 
层 ， 数 据 和 元 数据 的 存储 层 经 过 了 重新 配置 。 第 一 条 和 第 二 条 局 限 性 通过 从 企业 数据 仓库 
(EDW) 载 人 相关 数据 集 市 的 方法 来 解决 。 企 业 数 据 仓库 是 一 个 核心 的 、 集 成 的 数据 仓库 ， 
它 是 支持 终端 用 户 决策 支持 应 用 的 控制 点 和 唯一 的 “真实 版 本 ”。 相 关 数 据 集 市 的 另 一 个 目 
标 是 提供 用 户 群 决策 需要 的 一 个 简单 、 高 性 能 的 环境 。 一 个 数据 集 市 可 能 是 一 个 独立 的 物理 
数据 库 (不 同 的 数据 集 市 可 能 在 不 同 的 平台 上 )， 也 可 能 是 一 个 架空 的 钦 辑 (用 户 视图 ) 数据 
集 市 。 下 一 世 将 介绍 逻辑 数据 集 市 。 


资源 数据 系统 数据 中 转 区 数据 和 元 数据 存储 区 终端 用 户 表示 工具 


(操作 型 数据 存储 ) 。 
匹配 
提 合并 
”| 消除 元 余 
内 部 


输出 到 数据 仓库 
和 数据 集 市 


建 模 / 查询 结果 L= 逻辑 P= 物理 
图 9-3 ”相关 数据 集 市 和 操作 型 数据 存储 体系 结构 : 三 层 体系 结构 


一 个 用 户 组 可 以 访问 它 自己 的 数据 集 市 ， 当 需要 其 他 数据 时 ， 用 户 可 以 访问 EDW 来 获 
得 。 相 关 数 据 集 市 的 元 余 是 可 控制 的 ， 并且 是 一 致 的 ， 因 为 每 个 数据 集 市 都 以 同步 的 方式 目 
同一 数据 源 (或 数据 仓库 的 某 一 视图 ) 载 和 人 。 数 据 集成 是 管理 企业 数据 仓库 的 IT 职员 的 职 
责 ， 而 不 应 该 靠 终端 用 户 为 每 个 查询 或 应 用 集成 独立 数据 集 市 的 数据 。 相 关 数 据 集 市 和 操作 
型 数据 存储 体系 结构 也 称 为 “中 心 和 辐射 ”方法 ， 其 中 ，EDW 作为 中 心 ， 资 源 数 据 系统 和 
数据 集 市 作为 输出 和 输入 辐射 的 终端。 

通过 为 操作 型 数据 存储 中 的 全 部 操作 型 数据 提供 集成 资源 的 方法 可 以 解决 第 三 条 局 限 
性 。 操 作 型 数据 存储 (ODS) 是 一 个 集成 的 、 面 向 主题 的 、 可 连续 更 新 的 、 当 前 值 的 ( 伴 
有 最 近 历 史 )、 组 织 范 围 的 、 详 细 的 数据 库 ， 为 操作 型 用 户 决策 支持 进程 提供 服务 ( Imhoff， 
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1998 ; Inmon，1998 )。ODS 是 一 个 典型 的 关系 数据 库 ， 并 且 像 记录 系统 中 的 数据 库 一 样 规 
范 化 ， 但 被 调整 为 支持 决策 应 用 。 例 如 ， 索 引 和 其 他 关系 数据 库 设 计 元 素 被 调整 为 面向 检 
索 大 量 数据 的 查询 ， 而 不 是 面向 事务 处 理 或 查询 独立 的 和 直接 关联 的 记录 (如 一 个 客户 的 订 
单 )。 因 为 ODS 有 着 易 失 、 当 前 和 最 近 的 历史 数据 ， 所 以 对 ODS 同样 的 查询 在 不 同时 间 可 
能 会 出 现 不 同 结果 。 相 比 EDW，ODS 一 般 不 包含 “深度 ”历史 ， 而 EDW 则 会 保留 组 织 状 
态 在 数 年 间 的 历史 快照 。 一 个 ODS 可 能 来 自 于 一 个 ERP 应 用 数据 库 ， 但 是 由 于 大 部 分 组 织 
不 止 拥有 一 个 ERP 数据 库 而 且 不 在 一 个 ERP 上 运行 全 部 操作 ， 所 以 ODS 通常 不 同 于 一 个 
ERP 数据 库 。ODS 也 作为 数据 中 转 区 将 数据 载 人 EDW。ODS 可 以 立刻 或 经 过 一 些 延 迟 后 从 
记录 系统 接收 数据 ， 对 于 它 支 持 的 决策 需求 是 实用 的 且 可 接受 的 。 

相关 数据 集 市 和 操作 型 数据 存储 体系 结构 也 叫 作 合作 信息 工厂 (CIF) (Imhoff，1999 ) 。 
它 被 视 为 组 织 数 据 的 一 个 全 面 视图 ， 用 于 支持 全 部 的 用 户 数据 需求 。 

这 个 领域 中 ， 不 同 的 领导 者 拥护 不 同 的 数据 仓库 方法 。 拥 护 独 立 数据 集 市 方法 的 人 们 认 
为 这 种 方法 有 两 个 显著 优点 : 

1 ) 它 人 允许 数据 仓库 的 概念 在 一 系列 小 的 工程 上 得 以 展示 。 

2 ) 直到 从 数据 仓库 处 获 益 ， 时 间 长 度 才 得 以 缩短 ， 这 是 因为 组 织 在 全 部 数据 被 集中 前 
没有 延 时 。 

CIF 的 主张 者 们 ( Armstrong，2000 ; Inmon，1999 ) 提出 了 独立 方法 的 几 个 严重 问题 ， 
包括 前 面 列 出 的 独立 数据 集 市 的 5 点 局 限 性 。Inmon 建议 物理 分 离 相 关 数 据 集 市 的 一 个 优势 
在 于 它们 可 以 被 调整 来 适合 每 个 用 户 群 的 需要 。 特 别 是 ， 他 提出 了 对 探索 型 仓库 的 需求 ， 探 
索 型 仓库 是 一 个 特别 的 EDW， 使 用 先进 的 统计 、 数 学 建 模 和 可 视 化 工具 对 数据 挖 据 和 商务 
智能 进行 优化 。Armstrong ( 2000 ) 和 其 他 人 深入 讨论 了 独立 数据 集 市 拥护 者 提出 的 优点 实 
际 上 是 采用 分 段 的 方法 来 开发 数据 仓库 。 分 段 的 方法 在 CIF 框架 中 也 可 能 很 好 地 完成 ， 这 促 
进 完成 了 下 一 节 讲 述 的 最 终 的 数据 仓库 体系 结构 。 


9.2.3 ”逻辑 数据 集 市 和 实时 数据 仓库 体系 结构 


逻辑 数据 集 市 和 实时 数据 仓库 体系 结构 只 适用 于 中 等 大 小 的 数据 仓库 或 者 使 用 高 性 能 数 
据 仓 库 技术 时 ， 例 如 Teradata 系统 。 如 图 9-4 所 示 ， 这 种 体系 结构 有 以 下 特征 : 

1 ) 逻辑 数据 集 市 不 是 物理 分 离 的 数据 库 ， 而 是 一 个 物理 上 稍微 去 规范 化 的 关系 数据 仓 
库 的 另 一 种 关系 视图 。( 人 参考 第 6 章 关 于 视图 的 概念 。) 

2 ) 数据 移动 到 数据 仓库 中 而 不 是 分 离 的 数据 中 转 区 ， 以 利用 仓库 技术 的 高 效 计算 能 力 
来 执行 清洗 和 转化 步骤 。 

3 ) 新 数据 集 市 可 以 迅速 建立 ， 因 为 并 不 需要 建立 物理 数据 库 和 数据 库 技术 ， 也 不 需要 
书写 加 载 程序 。 

4 ) 数据 集 市 的 数据 总 是 最 新 的 ， 因 为 当 引 用 视图 时 ， 才 创建 视图 中 的 数据 。 当 用 户 有 
一 系列 的 分 析 和 查询 要 在 同一 个 数据 集 市 实例 上 进行 时 ， 视 图 可 以 被 物化 。 

无 论 是 逻辑 上 还 是 物理 上 ， 数 据 仓 库 和 数据 集 市 在 一 个 数据 仓库 环境 中 都 扮演 着 不 同 角 
色 ， 这 些 不 同 角 色 汇 总 在 表 9-2 中 。 尽 管 在 规模 上 有 限制 ， 但 数据 集 市 可 能 不 会 太 小 。 因 此 
可 扩展 技术 常常 很 重要 。 当 用 户 自身 需要 集成 分 散 的 物理 数据 集 市 中 的 数据 时 (如果 可 能 的 
话 ), 一 大 部 分 代价 和 负担 就 会 落 到 用 户 身上 。 当 数据 集 市 增加 时 ,数据 仓库 可 以 按 阶段 建 
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立 ， 其 中 最 容易 的 方法 是 遵循 逻辑 数据 集 市 和 实时 数据 仓库 体系 结构 。 


数据 中 转 区 本 
不 工 
资源 数据 系统 (操作 型 数据 存储 ) 广 数据 和 元 数据 存储 区 终端 用 户 表示 工具 


近 实 时 提供 


特殊 查询 工具 
报表 书写 者 
OLAP 工具 


实时 数据 仓库 
终端 用 户 应 用 (例如 ， 
转化 层 CRM 和 SRM、ATM) 
数据 人 市 要 砚 >| | | 
数 


数据 集 市 建 模 / 挖掘 工具 


可 视 化 工具 
一 致 维 数据 集 市 业务 性 能 管理 工具 


载 和 数据 仓库 (DW) 





操作 型 决策 的 新 业务 规则 
图 9-4 逻辑 数据 集 市 和 实时 数据 仓库 体系 结构 


表 9-2 数据 仓库 与 数据 集 市 








数据 入 市 
*。 独立 应 用 *。 特定 的 DSS 应 用 
规模 。 集 中 式 ， 可 能 是 企业 范围 。 按 用 户 区 域 离散 化 
。 有 计划 的 。 有 机 的 ， 可 能 无 规划 
数据 * 历史 的 、 详 细 的 、 概 括 的 。 一 些 历史 的 、 详 细 的 、 概 括 的 
。 稍 微 去 规范 化 。 高 度 去 规范 化 
主题 * 用 户 关心 的 某 个 核心 主题 
资源 * 几乎 没有 内 部 和 外 部 资源 
* 灵活 性 * 限制 性 
。 面向 数据 的 。 面向 工程 的 
其 他 特征 * 长 生命 期 。 短 生命 期 


“大 "开始 小 ， 逐 渐 增 大 
* 单一 的 复杂 结构 ， 多 、 半 复杂 结构 ， 总 体 复杂 
图 9-4 中 展示 的 实时 数据 仓库 体系 结构 意味 着 资源 数据 系统 、 决 策 支 持 服 务 、 数 据 仓库 

交换 数据 和 业务 规则 是 近 实 时 的 ， 这 是 因为 对 于 组 织 来 说 ， 有 对 当前 总 体 局 势 的 迅速 反应 
(即行 为 ) 要 求 。 实 时 数据 仓库 的 目的 是 了 解 现在 正在 发 生 什 么 、 什 么 时 候 发 生 以 及 通过 操 
作 型 系统 让 合理 的 事 发 生 。 例 如 ， 一 个 回答 问题 和 记录 问题 票据 的 桌面 帮助 专家 要 对 客户 的 
最 近 销 售 联系 人 、 账 单 和 文 付 事务 、 维 护 活动 和 订单 有 一 个 全 面 的 了 解 。 通 过 这 些 信息 ， 文 
持 帮 助 桌面 的 系统 可 以 基于 对 数据 仓库 里 的 最 新 数据 进行 连续 分 析 得 到 的 操作 型 决策 规则 ， 
自动 为 专家 生成 一 个 脚本 来 售卖 一 个 通过 分 析 得 出 的 可 能 和 特 利 的 维护 合同 、 升 级 产品 或 者 
一 个 有 着 相似 资料 客户 买 过 的 其 他 产品 。 对 重要 的 事件 (例如 新 产品 订单 到 了 ) 可 以 迅速 做 
出 反应 使 得 组 织 了 解 更 多 客户 之 间 的 联系 。 
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实时 数据 仓库 (与 实时 分 析 ) 的 男 一 个 例子 是 一 个 快递 服务 需要 频繁 地 扫描 包裹 来 知道 
包 庄 在 其 传输 系统 中 的 精确 位 置 。 基 于 这 些 包 于 数据 以 及 定价 、 客 户 满意 度 和 物流 商机 等 的 
实时 分 析 可 以 自动 对 包 于 重新 设 定 路 由 来 使 得 它们 能 准确 送 到 客户 手 上 。RFID 技术 允许 实 
时 数据 仓库 (具有 大 量 数据 ) 与 实时 分 析 一 起 使 用 ， 大 大 减少 了 获取 事件 数据 到 做 出 合适 反 
应 之 间 的 等 待 时 间 。 

这 类 应 用 的 趋势 是 ， 每 一 个 事件 〈 比 如 每 个 客户 ) 对 于 一 个 定制 的 、 个 性 化 的 和 优化 的 
通信 来 说 是 个 潜在 的 机 会 ， 这 基于 对 一 个 具有 特定 个 人 信息 的 客户 做 出 反应 的 战略 性 决策 。 
因此 ， 决 策 制定 和 数据 仓库 积极 地 参与 指导 操作 型 处 理 ， 这 也 是 很 多 人 称 之 为 主动 数据 仓库 
的 原因 。 它 的 目标 是 缩短 做 如 下 事情 的 周期 : 

e 在 商业 事件 中 获取 客户 数据 (已 经 发 生 了 什么 )。 

e 分 析 客 户 行为 (为 什么 发 生 ) 并 预测 客户 的 可 能 反应 (将 要 发 生 什么 )。 

e 制定 优化 客户 交互 的 规则 ， 包 括 合适 的 回应 和 取得 最 好 结果 的 途径 。 

e 根据 决策 规则 确定 的 对 客户 最 好 的 回应 ， 在 接触 点 对 客户 采取 迅速 的 行为 、 使 更 好 的 

结果 发 生 。 

主要 思路 是 采取 正确 行为 的 潜在 价值 缩减 了 从 事件 到 行为 的 延迟 。 实 时 数据 仓库 使 用 全 
部 智能 来 缩短 这 个 延迟 ， 它 把 数据 仓库 从 后 台 推 向 了 前 台 。 实 时 数据 仓库 的 一 个 详细 状态 报 
告 详 见 Hackathorn ( 2002 )。 甚 他 作者 的 文章 可 以 参考 面向 行为 的 或 者 活跃 的 数据 仓库 。 


9.2.4 三 层 数据 体系 结构 
图 9-5 展示 了 一 个 数据 仓库 的 三 层 数据 体系 结构 。 这 种 体系 结构 有 以 下 特征 : 


1 ) 操作 型 数据 存储 在 遍布 组 织 中 
的 许多 操作 型 记录 系统 (有 时 在 外 部 i 数据 集 市 
系统 ) 中 。 元 数 所 


2 ) 调和 数据 是 存储 在 企业 数据 仓 
库 和 操作 型 数据 存储 中 的 数据 。 它 们 
是 详细 的 当前 数据 ， 是 所 有 决策 支持 es 
应 用 的 唯一 、 权 威 性 资源 。 操作 型 数据 存储 


3 ) 派生 数据 是 存储 在 每 个 数据 集 。 全 要 并 模型 ET wd 
市 中 的 数据 。 它 们 是 经 过 镁 选 、 格 式 元 数据 


操作 型 系统 

化 、 聚 集 后 用 于 终端 用 户 决策 支持 应 
用 的 数据 。 图 9-5 数据 仓库 的 三 层 数 据 体系 结构 

跨 资源 系统 的 调和 数据 处 理 是 数据 质量 和 数据 集成 的 一 部 分 ， 它 受 组 织 规则 和 与 数据 管 
理 相 关 的 处 理 的 影响 。 几 个 比 简 单数 据 仓库 还 要 大 的 主题 ， 在 本 章 最 后 的 单独 一 节 中 进行 简 
单 介 绍 。 和 数据 仓库 相关 的 是 派生 数据 ， 这 将 在 本 章 后 面 讨论 。 图 9-5 所 示 的 体系 结构 中 的 
两 个 组 件 扮演 着 重要 角色 : 企业 数据 模型 和 元 数据 。 

1. 企业 数据 模型 的 作用 

图 9-5 中 展示 了 调和 数据 层 连接 到 企业 数据 模型 。 回 想 一 下 第 1 章 ， 企 业 数据 模型 表现 
了 组 织 需 要 的 全 部 数据 的 一 个 整体 图 。 如 果 调 和 数据 层 是 决策 支持 所 需 的 所 有 数据 的 唯一 权 
威 性 资源 ， 它 必须 符合 企业 数据 模型 的 设计 。 于 是 ， 企 业 数 据 模型 控制 着 数据 仓库 的 分 段 演 
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化 。 通 常 企 业 数据 模型 在 新 问题 或 新 的 决策 应 用 产生 时 会 进行 改进 。 开 发 企业 数据 模型 会 消 
耗 太 多 时 间 ， 对 决策 制定 的 动态 需求 可 能 在 数据 仓库 建 好 前 就 已 经 改变 了 。 

2. 元 数据 的 作用 

从 图 9-5 中 可 以 看 出 ， 元 数据 层 与 3 层 数据 的 每 一 层 都 连接 着 。 回 想 第 1 章 ， 元 数据 是 
用 于 描述 其 他 数据 性 能 和 特征 的 技术 和 商业 数据 。 下 面 是 图 9-5 中 所 示 的 三 种 元 数据 的 简明 
定义 : 

1 ) 操作 型 元 数据 ”描述 了 在 各 个 操作 型 系统 (以 及 外 部 数据 ) 中 提供 给 企业 数据 仓库 
的 数据 。 操 作 型 元 数据 一 般 有 多 种 格式 以 及 很 差 的 数据 质量 。 

2 ) 企业 数据 仓库 ( EDW ) 元 数据 派生 自 (或 者 至 少 一 臻 于) 企业 数据 模型 。EDW 元 
数据 描述 了 调和 数据 层 以 及 提取 、 转 化 、 载 和 操作 型 数据 到 调和 数据 的 规则 。 

3 ) 数据 集 市 元 数据 ”描述 了 派生 数据 层 以 及 将 调和 数据 转化 到 派生 数据 的 规则 。 

数据 仓库 元 数据 的 详细 描述 参见 Marco ( 2000 ) 。 


9.3 数据 仓库 数据 的 一 些 特征 


为 了 理解 和 建 模 数 据 仓 库 三 层 数 据 体 系 结构 中 每 一 层 的 数据 ， 需 要 学 习 一 些 存储 在 数 
据 仓 库 数据 库 中 数据 的 基本 特征 。 数 据 仓 库 的 数据 特征 与 操作 型 数据 库 的 数据 特征 是 不 
同 的 。 
9.3.1 状态 数据 与 事件 数据 


状态 数据 与 事件 数据 之 间 的 区 别 见 图 9-6。 图 中 有 一 条 DBMS 记录 的 典型 日 志 记 录 ， 这 
条 记录 是 一 个 银行 应 用 处 理 一 个 业务 交易 时 产生 的 。 这 前 像 
条 日 志 记 录 包 含 了 状态 数据 与 事件 数据 :“ 前 像 ” 和 “后 750 
像 ”表示 了 该 银行 账号 在 取款 前 后 的 状态 。 图 中 间 则 代 
表 着 取款 (或 者 更 新 事件 ) 的 数据 。 更 新 

事务 是 一 种 在 数据 库 层面 上 导致 一 个 或 多 个 商业 事 


K1234 
件 的 商业 活动 。 一 个 事件 导致 了 一 个 或 多 个 数据 库 操作 本 
(创建 、 更 新 或 删除 ) 。 图 9-6 中 的 取款 事务 导致 了 一 个 


(取款 ) 
更 新 ， 使 得 账户 余额 里 的 存款 从 750 减 为 700。 在 另 一 


方面 ， 钱 从 一 个 账户 转 到 另 一 个 账户 会 产生 两 个 动作 : 
一 个 取款 更 新 和 一 个 存款 更 新 。 有 时 ， 非 事务 也 是 重要 后 人 
的 活动 ， 需 要 被 记录 进 数据 仓库 中 ， 例 如 取消 在 线 购物 700 
车 、 忙 信号 、 网 络 连接 断 开 、 一 个 商品 放 入 购物 车 后 并 
未 付款 就 被 删除 等 。 

状态 数据 和 事件 数据 都 存储 在 数据 库 中 。 然 而 ， 实 际 上 ， 大 多 数 数据 库 中 的 数据 (包括 
数据 仓库 ) 都 是 状态 数据 。 数 据 仓库 可 能 会 有 事务 状态 数据 的 历史 快照 或 总 结 (比如 每 小 时 
合计 ) 或 者 事件 数据 。 代 表 着 事务 的 事件 数据 可 能 会 存储 一 定 的 时 间 ， 之 后 就 会 被 删除 或 存 
档 以 腾 出 存储 空间 。 状 态 数据 和 事件 数据 一 般 存储 在 数据 库 日 志 中 (如 图 9-6 所 示 )， 以 应 备 
份 或 恢复 之 需 。 稍 后 会 说 明 数 据 库 日 志 在 填充 数据 仓库 中 发 挥 着 重要 作用 。 





图 9-6 一 条 DBMS 日 志 记 录 的 例子 
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9.3.2 ”临时 数据 与 定期 数据 


数据 仓库 中 经 常会 有 一 些 关 于 过 去 事件 发 生 时 间 的 记录 。 这 当然 是 必要 的 ， 例 如 在 某 个 
特定 的 日 子 或 时 间 段 与 去 年 同期 的 销售 和 库存 水 平 相 比较 时 。 

大 部 分 的 操作 型 系统 建立 在 临时 数据 的 使 用 上 。 临 时 数据 是 这 样 一 类 数据 ， 其 中 现 有 记 
录 履 盖 了 之 前 的 记录 导致 之 前 数据 内 容 损坏 。 记 录 不 经 保存 就 被 删除 。 

通过 参考 图 9-6 可 以 可 视 化 临时 数据 。 如 果 后 像 覆盖 了 前 像 ， 那 么 前 像 (包括 以 前 的 账 
目 ) 就 会 丢失 。 然 而 ， 由 于 这 是 一 条 数据 库 日 志 ， 因 此 两 者 都 正常 地 保存 下 来 。 

定期 数据 是 存储 后 从 来 不 会 被 物理 改变 或 删除 的 数据 。 图 9-6 表示 的 前 像 和 后 像 就 是 定 
期 数据 。 注 意 ， 每 条 记录 都 带 有 一 条 最 近 一 次 事件 更 新 时 的 时 间 戳 来 表示 日 期 。( 第 2 章 曾 
介绍 过 时 间 戳 。) 


9.3.3 临时 数据 与 定期 数据 例子 
一 个 更 详细 地 比较 临时 数据 和 和 定期 数据 的 例子 见 图 9-7 和 图 9-8。 


Table X (10/09) Table X (10/10) Table X (10/11) 





图 9-7 ”临时 操作 型 数据 


Table X (10/10) 





Table X (10/09) 





图 9-8 定期 仓库 数据 


1. 临时 数据 
图 9-7 展示 了 一 个 关系 ( 表 X)， 它 初始 包含 4 行 。 这 个 表 有 3 个 属性 : 1 个 主 属 性 和 2 
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个 非 主 属性 A 和 B。10/09 这 一 天 的 各 个 属性 值 已 在 图 中 给 出 ， 例 如， 对 于 记录 001， 属 性 
A 的 值 是 a。 

在 10/10 这 天 ， 表 中 有 3 个 改变 ( 表 左 边 有 箭头 标识 处 ) 。002 行 被 更 新 ， 属 性 A 的 值 
从 < 变 成 rs 004 行 也 被 更 新 ， 属 性 A 的 值 从 g 变 成 y。 新 的 一 行 ( 键 是 005 ) 被 插入 到 表 中 。 

注意 ， 当 002 行 和 004 行 被 更 新 时 ， 新 的 一 行 替 代 了 原来 的 行 ， 这 样 原来 的 数据 就 丢失 
了 。 这 些 数据 没有 任何 历史 记录 。 这 就 是 临时 数据 的 特征 。 

在 10/11 这 一 天 发 生 了 更 多 的 改变 (为 简化 讨论 ， 假设 在 给 定 日 期 对 给 定 行 只 能 作 一 次 
改变 )。003 行 更 新 ，004 行 被 删除 。 注 意 ， 没 有 任何 记录 表明 004 行 曾经 存储 在 数据 库 中 。 
图 9-7 展示 的 数据 处 理 方法 就 是 操作 型 系统 中 临时 数据 的 典型 特征 。 

2. 定期 数据 

数据 仓库 的 一 个 典型 目标 是 保存 关键 事件 的 历史 记录 或 者 为 特殊 变量 (如 销量 ) 创建 一 
个 时 间 序 列 。 这 通常 需要 存储 定期 数据 而 不 是 临时 数据 。 图 9-8 将 图 9-7 中 的 表 进 行 修改 ， 
以 表示 定期 数据 ， 主 要 有 以 下 改变 : 

1 ) 表 X 新 增加 了 两 列 : 

a. Date 列 是 表示 了 对 应 行 最 近 一 次 修改 的 时 间 惟 。 
b. Action 列 用 于 记录 发 生 改 变 的 类 型 。 该 属性 可 能 的 值 有 C (新 建 )、U (更 新 ) 和 D 
(删除 )。 

2 ) 一 旦 一 条 记录 存储 到 表 中 ， 那 条 记录 就 再 也 不 会 进行 更 改 。 当 对 某 条 记录 进行 更 新 
操作 时 ， 前 像 和 后 像 都 会 存 人 表 中 。 尽 管 一 条 记录 可 能 在 逻辑 上 被 删除 ,但 是 被 删除 记录 的 
历史 版 本 会 留 在 数据 库 中 (至少 5 个 季度 ) 用 于 分 析 趋 势 。 

现在 让 我 们 检查 一 下 图 9-7 中 一 组 相同 的 操作 。 假 设 所 有 4 行 都 在 10/09 这 天 被 创建 ， 
如 第 一 个 表 所 示 。 

第 二 个 表 中 ，002 行 和 004 行 被 更 新 ， 表 中 现在 既 包 括 这 些 行 10/09 的 旧版 本 ， 也 包括 
10/10 的 新 版 本 。 表 中 还 包括 10/10 新 创建 的 行 005。 

第 三 个 表 (10/11 ) 中 ，003 行 的 更 新 使 得 新 老 版 本 并 存 。004 行 被 删除 ， 现 在 这 个 表 中 
有 3 个 004 行 的 版 本 : 10/09 的 初始 版 本 、10/10 的 更 新 后 版 本 以 及 10/11 的 删除 版 本 。 最 后 
一 行 的 值 D 表示 004 这 一 行 已 经 在 逻辑 上 被 删除 了 ， 所 以 它 对 于 用 户 和 他 们 的 应 用 程序 已 
经 不 可 用 。 

在 图 9-8 中 可 以 看 出 为 什么 数据 仓库 的 增长 是 非常 迅速 的 。 存 储 定期 数据 会 占用 大 量 的 
存储 空间 ， 因 此 用 户 必须 谨慎 选择 需要 用 这 类 方式 处 理 的 关键 数据 。 

3. 数据 仓库 的 其 他 改变 

除了 上 面 概述 的 数据 值 的 定期 变化 外 ， 仓 库 数据 模型 还 有 6 种 其 他 的 改变 需要 数据 仓库 
支持 : 

1 ) 新 描述 属性 ”例如 ， 产 品 或 客户 的 新 特征 需要 存 人 仓库 中 ， 这 需要 被 数据 仓库 所 容 
纳 。 本 章 后 面 称 其 为 维 表 的 属性 。 这 个 改变 相当 容易 被 容纳 ， 只 需 增加 新 的 列 并 允许 已 知 的 
行 有 空 值 即 可 (如果 历史 数据 在 资源 系统 中 存在 ， 空 值 可 以 不 必 存 储 )。 

2 ) 新 商业 活动 属性 例如， 必须 容纳 已 经 存储 在 仓库 中 的 事件 的 新 特征 ， 如 图 9-8 中 
表 的 列 C。 这 可 以 和 第 一 条 一 样 处 理 ， 但 是 会 复杂 很 多 ， 因 为 新 的 事实 可 能 会 更 精确 ， 像 
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图 9-8 中 数据 与 周 相 关联 ， 而 不 是 月 和 年 。 

3 ) 新 描述 属性 类 ”这 相当 于 回 数 据 库 中 添加 新 表 。 

4 ) 描述 属性 变 得 更 精细 例如， 商店 的 数据 必须 根据 收 款 机 来 区 别 以 便 统计 销售 数据 。 
这 是 个 非常 重要 的 变化 ， 这 在 本 章 后 面 会 讨论 。 这 可 能 会 是 一 个 非常 难 支持 的 变化 。 

5 ) 描述 数据 相互 关联 例如， 商店 的 数据 和 地 理 数 据 相 关 。 这 导致 了 新 的 联系 常常 分 
层 包 括 在 数据 模型 中 。 

6 ) 新 数据 资源 这 是 一 个 很 普遍 的 改变 ， 一 些 新 的 商业 需求 导致 数据 来 自 额 外 的 资源 
系统 或 安装 新 的 操作 型 系统 提供 仓库 。 这 类 改变 可 能 导致 之 前 所 述 的 任何 改变 发 生 ， 同 时 还 
可 能 需要 新 的 提取 、 转 化 和 载 人 处 理 。 

考虑 到 数据 仓库 中 存放 着 全 部 的 历史 数据 ， 一 般 情 况 下 ， 不 太 可 能 通过 恢复 和 重 载 数据 
仓库 来 满足 全 部 这 些 变化 。 但 是 必须 平滑 地 适应 这 些 变化 来 使 得 数据 仓库 满足 新 的 商业 条 件 
和 信息 与 商务 智能 的 需要 。 因 此 ， 考 虑 变化 而 设计 数据 仓库 是 很 重要 的 。 


9.4 派生 数据 层 


现在 回 到 派生 数据 层 。 这 是 一 个 关联 逻辑 或 物理 数据 集 市 的 数据 层 ( 见 图 9-5 )。 用 户 们 
一 般 通 过 与 这 个 数据 层 交 互 来 获得 他 们 的 决策 支持 应 用 所 需 的 信息 。 理 想 情 况 下 ， 无 论 数据 
集 市 是 独立 的 、 相 关 的 还 是 逻辑 的 ， 调 和 数据 层 都 应 该 最 先 被 设计 ， 并 作为 派生 数据 层 的 基 
础 。 为 了 派生 任何 可 能 需要 的 数据 集 市 ， EDW 有 必要 成 为 一 个 完全 规范 化 的 关系 数据 库 并 
且 包 容 临 时 数据 和 定期 数据 。 这 样 就 有 非常 大 的 灵活 性 来 将 数据 以 最 简单 的 形式 满足 用 户 需 
求 ， 即 使 是 EDW 设计 时 没有 想到 的 需求 。 本 市 先 讨 论 派生 数据 层 的 特征 ， 然 后 介绍 当今 实 
现 这 一 数据 层 的 最 流行 的 数据 模型 一 一 星 模式 (或 维 模 型 )。 星 模式 是 一 个 特殊 设计 的 去 规 
范 化 关系 数据 模型 。 这 里 强调 派生 数据 层 可 以 使 用 企业 数据 仓库 中 的 规范 化 关系 ， 然 而 ， 大 
部 分 组 织 还 是 会 建立 很 多 数据 集 市 。 


9.4.1 派生 数据 的 特征 


之 前 定义 了 派生 数据 是 经 过 筛选 、 格 式 化 和 聚集 后 用 于 终端 用 户 决 策 支 持 应 用 的 数据 。 
换 名 话说， 派生 数据 是 代替 原 数 据 的 信息 。 从 图 9-5 中 可 知 ， 派 生 数 据 的 来 源 是 调和 数据 ， 
是 经 过 一 系列 非常 复杂 的 数据 处 理 将 来 自 于 组 织 内 外 记录 系统 中 的 数据 集成 并 一 致 化 后 得 到 
的 数据 。 数 据 集 市 中 的 派生 数据 通常 为 了 满足 某 一 特定 的 用 户 群 (如 部 门 、 工 作 组 或 者 个 人 ) 
而 进行 优化 以 便 度 量 和 分 析 商 业 活 动 和 趋势 。 一 个 普遍 的 操作 方式 是 先 从 企业 数据 仓库 中 按 
日 期 选择 相关 数据 ， 根 据 需要 将 这 些 数 据 格式 化 并 聚集 ， 然 后 加 载 数据 和 创建 索引 到 目标 数 
据 集 市 。 数 据 集 市 通常 通过 联机 分 析 处 理 (OLAP) 工具 来 访问 ， 本 章 最 后 一 节 将 讨论 OLAP。 

派生 数据 的 目标 与 调和 数据 的 目标 大 不 相同 ， 典 型 的 目标 如 下 : 

e。 为 决策 支持 应 用 提供 便捷 的 使 用 。 

。 为 预定 义 的 用 户 查 询 和 信息 请 求 提 供 迅 速 的 响应 (信息 通常 以 指标 的 形式 呈现 ， 以 便 

估计 组 织 在 某 些 方面 的 健壮 程度 ， 例 如 客户 服务 、 熏 利 能 力 、 流 程 效 率 或 销售 增长 )。 

® 为 特定 的 目标 用 户 组 定制 数据 。 

e。 支持 特殊 查询 和 数据 挖掘 以 及 其 他 分 析 应 用 

为 了 满足 这 些 需 求 ， 派 生 数据 中 应 有 以 下 特征 : 
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。 既 有 详细 数据 也 有 聚集 数据 : 

a. 详细 数据 经 浓 是 〈 但 不 总 是 ) 定期 数据 。 也 就 是 说 ， 提 供 的 是 历史 记录 。 
b. 聚集 数据 被 格式 化 以 迅速 响应 预先 确定 的 (或 一 般 的 ) 查询 。 

e。 数据 分 布 在 不 同 的 数据 集 市 中 为 不 同 的 用 户 组 服务 。 

。 数据 集 市 最 通用 的 数据 模型 是 维 模型 ， 通 常 是 一 种 类 关系 模型 ， 即 星 模式 模型 (这 类 
模型 被 关系 联机 分 析 处 理 (ROLAP) 工具 所 使 用 )。 专 有 模型 (类 似 于 超 立方 体 ) 有 
时 也 会 被 使 用 (这 类 模型 被 多 维 联机 分 析 处 理 ( MOLAP) 工具 所 使 用 )。 这 些 工 具 在 
本 章 后 面 也 会 介绍 。 


9.4.2 ” 星 模 式 


星 模式 是 一 种 简单 的 数据 库 设 计 (适合 特殊 查询 )， 星 模式 中 ， 维 数据 (描述 数据 如 何事 
集 ) 与 事实 或 事件 数据 (描述 商业 活动 ) 分 开 。 星 模式 是 维 模型 ( Kimball，1996 ) 的 一 个 版 
本 。 尽 管 星 模式 适用 于 特殊 查询 (和 其 他 形式 的 信息 处 理 )， 它 并 不 适合 联机 事务 处 理 ， 因 
此 并 不 广泛 运用 到 操作 型 系统 、 操 作 型 数据 存储 或 EDW 中 。 它 被 称 为 星 模式 是 因为 模型 的 
形状 ， 而 不 是 因为 在 好 莱 坞 星光 大 道 被 人 所 认可 。 

1. 事实 表 和 维 表 

星 模式 中 包含 两 种 类 型 的 表 : 一 个 事实 表 和 一 个 或 多 个 维 表 。 事 实 表 包含 商业 的 事实 或 
量化 数据 (度量 方法 是 数字 的 、 连 续 值 的 以 及 可 增加 的 )， 例 如 售 出 单位 、 预 订 订 单 等 。 维 
表 里 存 有 关于 商业 主题 的 描述 型 数据 ph 
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(文本 )。 维 表 一 般 是 属性 的 来 源 ， 这 
些 属性 用 于 修饰 、 分 类 和 概括 查询 、 | 属性 | 实 表 属性 | 
报告 和 图 标 中 的 事实 。 因 此 ， 维 数 ， ER 
据 一 般 是 文本 化 且 离散 的 (即使 是 数 | … | fs | ed se 
字 )。 一 个 数据 集 市 可 能 包含 许多 星 i 
模式 ,它们 有 着 相似 的 维 表 ， 但 有 着 

不 同 的 事实 表 。 典 型 的 商业 维 (主题 ) 维 表 维 表 
有 产品 、 客 户 、 时 期 。 时 期 或 时 间 一 
定 会 是 一 个 维 。 这 样 的 结构 见 图 9-9， Wr 
图 中 包括 4 个 维 表 。 正 如 很 快 就 会 看 
到 的 ， 在 这 个 基础 的 星 模 式 结构 上 有 
一 些 变化 可 以 提供 更 多 的 概括 和 分 类 

事实 的 能 力 。 图 9-9 星 模 式 的 组 成 部 分 


每 个 维 表 和 中 间 的 事实 表 之 间 是 一 对 多 的 关系 。 每 个 维 表 通 常 包括 一 个 简单 的 主键 和 一 
些 非 主 属性 。 这 些 主键 在 事实 表 中 依次 是 外 键 (如 图 9-9 所 示 )。 事 实 表 的 主键 是 一 个 复合 
键 ， 它 包括 了 全 部 的 外 键 (图 中 有 4 个 )， 可 能 再 加 上 一 些 与 维 不 对 应 的 其 他 组 件 。 每 个 维 
表 和 事实 表 之 间 的 联系 提供 了 一 条 连接 路 径 ， 人 允许 用 户 使 用 SQL 语句 可 以 很 容易 地 进行 预 
先 定 义 好 的 或 特殊 的 查询 操作 。 

到 现在 为 止 ， 你 可 能 已 经 了 解 到 星 模式 并 不 是 新 的 数据 模型 ， 而 只 是 一 个 去 规范 化 的 
关系 数据 模型 的 实现 。 事 实 表 扮 演 着 一 个 规范 化 的 n 元 关联 实体 的 角色 ， 它 联系 起 众多 维 
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的 实例 ， 这 些 维 是 第 二 范式 ， 而 且 可 能 不 是 第 三 范式 的 。 回 顾 一 下 关联 实体 ， 参 考 第 2 章 ， 
图 2-11 和 图 2-14 是 使 用 关联 实体 的 一 个 例子 。 维 表 是 去 规范 化 的 ， 大 部 分 专家 将 这 个 去 规 
范 化 看 作 是 可 接受 的 ， 因 为 维 不 需要 进行 更 新 并 且 避 免 了 高 开销 的 连接 操作 。 因 此 ， 星 模式 
围绕 着 重要 的 事实 和 商业 对 象 进 行 优化 来 响应 具体 的 信息 需求 。 维 之 间 的 联系 是 不 允许 的 ， 
尽管 在 组 织 中 可 能 存在 这 样 的 联系 (例如 在 员工 和 部 门 之 间 )， 这 样 的 联系 处 于 星 模 式 的 范 
围 外 。 之 后 会 看 到 ， 可 能 会 有 其 他 的 表 与 维 相关 ， 但 是 那些 表 将 永远 不 会 与 事实 表 相 关 。 

2. 星 模式 的 例子 

星 模式 给 出 了 一 系列 的 商业 问题 的 答案 。 例 如 以 下 问题 : 

1 ) 哪 座 城市 的 大 型 产品 销量 最 高 ? 

2 ) 商店 经 理 的 平均 月 销售 额 是 多 少 ? 

3 ) 哪 家 商店 的 哪样 产品 带 来 了 亏损 ? 这 个 亏损 会 随 着 季度 变化 吗 ? 

一 个 简单 的 星 模式 就 可 以 解答 以 上 问题 ， 如 图 9-10 所 示 。 这 个 例子 中 有 3 个 维 表 : 


PRODUCT、PERIOD 和 STORE ; 还 有 1 
个 事实 表 : SALES。 事 实 表 用 来 记录 3 种 
商业 事实 : 总 销售 单位 、 总 销售 金额 和 总 
开销 金额 。 这 些 合计 数据 按 天 (最 小 的 周 
期 (PERIOD) 单位 ) 来 统计 。 

这 些 问题 可 以 被 一 个 完全 规范 化 的 事 
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Product Code 
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Period Code 






















务 数 据 的 数据 模型 所 回答 吗 ? 是 的 ,一 个 
完全 规范 化 和 详细 的 数据 库 可 以 最 灵活 地 
来 支持 回答 绝 大 多 数 问 题 。 然 而 ， 其 中 需 
要 涉及 更 多 的 表 和 连接 操作 、 用 标准 方式 
聚集 更 多 数据 、 用 可 理解 的 序列 排序 数 
据 。 这 可 能 会 让 一 个 典型 商业 经 理 更 难于 图 9-10 星 模 式 的 例子 
分 析 数 据 (尤其 当 他 使 用 原始 SQL 语句 )， 除 非 他 使 用 的 商务 智能 ( OLAP) 工具 能 帮助 减少 
数据 复杂 度 ( 见 本 章 后 面 有 关 用 户 界 面 的 小 节 )。 而 且 足 够 的 销量 历史 需要 被 保存 下 来 ， 这 
个 量 远 比 事务 处 理应 用 程序 所 需要 的 来 得 多 。 如 果 使 用 数据 集 市 ， 则 连接 和 概括 数据 〈 这 会 
导致 大 量 的 数据 库 处 理 ) 的 操作 就 被 转移 到 了 调和 层 ， 就 不 会 让 终端 用 户 来 做 这 些 事 ， 而 直 
接 给 出 了 他 们 需要 的 回答 。 然 而 ,在 设计 数据 集 市 前 ， 需 要 知道 哪些 问题 会 被 问 到 ， 从 而 在 
设计 上 进行 优化 以 便于 处 理 。 更 长 远 考虑 ， 当 这 3 个 问题 对 于 组 织 来 说 不 再 感 兴趣 时 ， 数 据 
集 市 (如 果 是 物理 数据 集 市 ) 就 可 以 被 抛 开 ， 另 外 新 建 一 个 数据 集 市 来 回答 新 的 问题 ， 而 完 
全 规范 化 模型 更 适合 为 长 期 的 、 较 少 改 变 的 数据 库 所 需要 (可 能 伴 有 为 了 满足 临时 需求 的 逻 
辑 数据 集 市 ) 。 本 章 后 面 会 介绍 一 些 简 单 的 方法 来 判断 如 何 从 这 些 商 业 问 题 中 确定 一 个 星 模 
式 模型 。 

图 9-11 中 展示 了 这 个 星 模 式 的 一 些 数据 样 例 。 从 事实 表 中 可 以 发 现 ， 产品 110 在 时 期 
002 期 间 有 下 列 事实 : 

1 ) 商店 S1 卖 出 了 30 个 单位 的 产品 。 总 销售 额 为 1500， 总 开销 金额 为 1200。 

2 ) 商店 S3 卖 出 了 40 个 单位 的 产品 。 总 销售 额 为 2000， 总 开销 金额 为 1200。 





Telephone 
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Product Period 


Product I Period 
Code |Description | Color Code | Year | Quarter | Month 
100 Sweater Blue | 40 001 | 2010 1 全 
110 Shoes Brown| 10 1/2 002 | 2010 1 5 
125 Gloves Tan M 003 | 2010 1 6 


人 小 人 小 
Product | Period | Store | Units | Dollars | Dollars 
Code Code | Code | Sold Sold Cost 
S1 30 
S2 50 

















S1 | 40 
S3 | 40 
S2 | 30 
V 


Store | Store 
Code | Name City Telephone | Manager 


Store| S1 Jan's |San Antoniol683-192-1400| Burgess 
S2 Bill's Portland |943-681-2135| Thomas 
S3 Ed's Boulder |417-196-8037| Perry 


图 9-11 星 模 式 的 样本 数据 


关于 这 个 例子 的 详细 维 信息 可 以 从 维 表 中 看 出 。 例 如 ， 在 表 PERIOD 中 ， 可 以 发 现时 
期 002 对 应 于 2010 年 第 一 季度 的 5 月 。 其 他 的 维 也 可 以 用 类 似 的 方法 看 出 。 
3. 代理 键 
每 个 用 于 连接 事实 表 和 维 表 的 键 都 应 该 是 代理 键 (surrogate key)( 非 智能 或 系统 指定 的 )， 
而 不 能 是 一 个 使 用 商业 值 的 键 (有 时 称 为 自然 键 、 智 能 键 或 产品 键 )。 在 图 9-10 中 ，Product 
Code 、Store Code 和 Period Code 在 事实 表 和 维 表 中 都 应 是 代理 键 。 例 如 ， 如 果 需 要 知道 产 
品 的 目录 号 、 工 程 编号 或 者 库存 号 ， 这 些 属性 将 会 与 Description 、Color 和 Size 一 样 存储 在 
产品 维 表 中 。 下 面 是 使 用 代理 键 规则 的 主要 原因 (Kimball，1998a): 
e 商业 键 经 常 随 着 时 间 慢 慢 改 变 。 对 于 同一 个 商业 对 象 ， 我们 需要 记录 它 以 前 和 现在 的 
商业 键 值 。 在 之 后 的 小 节 中 会 看 到 缓 变 维 一 一 一 个 很 容易 掌握 变化 和 未 知 键 的 代理 键 。 
e 使 用 一 个 代理 键 也 允许 随时 间 跟 踪 同 一 个 产品 键 的 非 主 属性 值 。 这 样 ， 如 果 一 个 产品 包 
装 的 尺寸 发 生 了 改变 ， 可 以 把 同一 产品 的 产品 键 和 代表 不 同 包装 尺寸 的 代理 键 相 关联 。 
e 代理 键 通常 比较 简单 和 简短 ， 尤 其 当 产 品 键 是 一 个 复合 键 时 。 
e 代理 键 可 以 有 着 相同 的 长 度 和 格式 ， 无 论 商 业 维 是 怎样 参与 到 数据 库 中 的 ， 甚 至 是 日 期 。 
每 个 维 表 的 主键 是 它 的 代理 键 。 事 实 表 的 主键 是 一 个 它 所 有 关联 着 的 维 表 的 所 有 代理 键 
组 成 的 一 个 复合 键 ， 这 个 复合 键 中 的 每 个 属性 自然 就 是 其 关联 的 维 表 的 一 个 外 键 。 
4. 事实 表 的 粒度 
星 模式 的 原 数 据 保 存在 事实 表 中 。 事 实 表 的 全 部 数据 是 由 复合 键 元 素 的 相同 组 合 决 定 
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的 。 例 如 ， 如 果 事 实 表 中 最 精确 的 数据 是 每 天 的 值 ， 那 么 表 中 全 部 测量 数据 都 必须 是 每 天 的 
值 ， 并 且 时 期 维 的 最 低 水 平 的 特征 必须 是 日 。 确 定 存 储 在 事实 表 的 详尽 事实 数据 的 最 低 水 平 
可 以 说 是 数据 集 市 设计 中 最 重要 也 是 最 困难 的 步骤 。 数 据 的 精确 水 平 是 由 事实 表 主 键 的 全 部 
组 成 部 分 的 交 所 决定 的 。 这 个 主键 的 交 被 称 为 事实 表 的 粒度 。 确 定 粒 度 是 非常 重要 的 ， 而 
且 必 须 由 商业 决策 需求 (例如 需要 数据 集 市 所 回答 的 问题 ) 所 决定 。 用 维 属性 来 聚集 事实 数 
据 进 行 概括 的 方法 很 常见 ,但 是 没有 方法 来 让 数据 集 市 理解 比 事实 表 粒 度 更 精细 水 平 的 商业 
活动 。 

一 个 普通 的 粒度 可 能 是 一 个 商业 事务 ， 例 如 在 一 张 产品 销售 收据 上 的 个 别 行 项 目 或 个 别 
扫描 项 目 、 一 条 人 事变 动 命 令 、 材 料 收据 上 的 一 个 行 项 目 、 一 个 针对 保险 单 的 索赔 、 一 个 
登 机 牌 或 者 一 个 单独 的 ATM 事务 等 。 事 务 粒度 允许 用 户 用 来 进行 分 析 ， 例 如 市 场 购物 篮 分 
析 ， 这 是 对 于 个 别 客户 购买 行为 的 学 习 。 比 事务 层面 粒度 高 一 级 的 粒度 可 能 会 是 在 某 一 天 某 
产品 的 全 部 销量 、 一 个 仓库 某 个 月 间 全 部 原材料 的 收据 或 一 次 ATM 会 话 中 全 部 的 ATM 事 
务 等 。 事 实 表 中 的 粒度 越 细 ， 就 存在 越 多 的 维和 越 多 的 事实 行 ， 数 据 集 市 模型 也 越 像 一 个 操 
作 型 数据 存储 的 数据 模型 。 

由 于 基于 Web 的 电子 商务 的 迅速 发 展 ， 点 击 成 为 可 能 最 小 的 粒度 。 分 析 一 个 网 站 的 购买 
习惯 需要 点 击 流 数据 (例如 页 面 停留 时 间 、 页 面 跳 转 等 )。 这 样 的 分 析 可 能 会 有 助 于 理解 网 
站 的 可 用 性 和 个 性 化 信息 导航 服务 。 然 而 这 个 过 于 精细 的 粒度 实际 上 太 慢 ， 难 以 使 用 ， 据 估 
计 ，90% 以 上 的 点 击 流 数 据 是 无 用 的 (Inmon，2006 )。 例 如 ， 用 户 移动 鼠标 的 某 些 行为 丝毫 
没有 商业 价值 ， 比 如 活动 一 下 手腕 、 撞 击 一 下 鼠标 或 者 移动 鼠标 绕 开 桌子 上 的 某 些 障碍 物 等 。 

Kimball ( 2001 ) 和 其 他 人 提出 ， 使 用 最 小 的 粒度 可 能 会 限制 数据 集 市 技术 。 尽 管 当 数 
据 集 市 用 户 信息 需求 是 某 一 特定 水 平 的 聚集 粒度 ， 但 经 常 在 某 些 应 用 后 ， 用 户 会 询问 一 些 更 
详细 的 问题 (下 钻 ) 来 解释 为 什么 这 样 的 聚集 形式 存在 。 你 不 能 “下 外 ”到 比 事实 表 粒 度 更 
深 的 地 方 (而 不 访问 其 他 数据 资源 ， 例 如 EDW、ODS 或 者 原始 资源 系统 ， 从 而 提供 更 合适 
的 分 析 结 果 )。 

5. 数据 库 的 持续 时 间 

对 于 EDW 或 ODS， 男 一 个 在 设计 数据 集 市 时 重要 的 决策 是 需要 保存 的 历史 长 度 ， 即 数 
据 库 的 持续 时 间 。 一 般 的 持续 时 间 大 约 在 13 个 月 或 者 5 个 季度 ,这 是 足够 观察 1 年 的 数据 周 
期 。 一 些 商 业 企业 (例如 金融 机 构 ) 需要 更 长 的 持续 时 间 。 如 果 数 据 源 需要 额外 的 属性 ， 那 
么 旧 数 据 可 能 很 难 溯源 和 清洗 。 即 使 昌 数 据 的 数据 源 可 以 访问 ， 也 会 很 难 找到 维 数据 的 旧 值 ， 
它们 比 事实 数据 更 难保 留 。 而 旧 的 事实 数据 如 果 缺 少 了 与 维 数据 的 关联 性 也 就 没有 使 用 价值 。 

6. 事实 表 的 大 小 

正如 你 所 预料 的 ， 粒 度 和 持续 时 间 对 事实 表 的 大 小 有 直接 影响 。 可 以 按照 下 列 规则 来 佑 
计 事 实 表 的 行 数 : 

1 ) 估计 每 个 维 表 与 事实 表 关 联 的 可 能 值 的 个 数 〈( 换 句 话 说， 事实 表 中 每 个 外 键 的 可 能 
值 的 个 数 ) 。 

2 ) 进行 一 些 必 要 的 调整 后 ， 将 步骤 1 得 到 的 值 相 乘 。 

对 图 9-11 所 示 的 星 模 式 使 用 这 种 方法 。 假 设 各 个 维 的 值 如 下 : 

商店 总 数 =1000 
品 总 数 =10 000 
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时 期 总 数 =24 (2 年 间 的 月 度数 据 ) 

虽然 总 共有 10 000 个 产品 ， 但 是 一 个 给 定 的 月 内 只 有 一 部 分 产品 会 有 销售 记录 。 因 为 
只 有 产生 销量 的 记录 才 会 出 现在 事实 表 中 ， 所 以 需要 进行 一 些 调整 。 假 设 平均 有 50% 的 产 
喇 在 一 个 月 内 有 销售 记录 ， 那 么 事实 表 中 行 数 的 一 个 估计 值 如 下 : 

总 行 数 =1000 商店 *5000 活跃 产品 *24 月 =120 000 000 行 

这 样 ， 在 这 个 相对 较 小 的 例子 中 ， 包 含 着 两 年 月 度 记录 的 事实 表 预 计 行 数 会 超过 1 亿 
行 。 这 个 例子 很 好 地 说 明了 事实 表 可 能 会 比 维 表 大 上 许多 倍 。 例 如 ， 表 STORE 有 1000 行 ， 
表 PRODUCT 有 10 000 行 , 表 PERIOD 有 24 行 。 

如 果 知 道 事 实 表 中 每 个 字段 的 大 小 ， 就 可 以 估算 出 它 的 字 节 数 。 事 实 表 SALES 有 6 个 
字段 ， 如 果 平 均 每 个 长 4 字 节 ， 那 么 大 小 总 共 为 : 

总 大 小 : 120 000 000 行 *6 个 字段 *4 字 节 /字段 =2 880 000 000 字 节 =2.88GB 

事实 表 的 大 小 取决 于 维 数 和 事实 表 的 粒度 。 假 设 图 9-11 中 的 数据 库 经 过 了 一 段 时 间 的 
使 用 后 ， 市 场 部 需要 计算 表 中 的 每 日 总 和 (这 是 数据 集 市 的 一 个 典型 演化 )。 由 于 粒度 变 成 
了 日 ， 因 此 总 行 数 变 为 : 

总 行 数 =1000 商店 *2000 活跃 产品 *720 天 (2 年 ) =1 440 000 000 行 

在 这 个 计算 中 ,假设 有 20% 的 产品 销售 记录 在 一 天 中 是 活路 的 。 数 据 库 现 在 就 有 了 超 
过 10 亿 行 。 数 据 库 的 大 小 为 : 

总 大 小 =1 440 000 000 行 *6 个 字段 *4 字 节 /字段 =34 560 000 000 字 节 =34.56GB 

对 于 大 型 的 零售 商 (例如 沃尔玛 ) 或 者 电子 商务 厂商 (例如 Travelo city.com, 亚马逊 )， 
现在 都 有 数据 仓库 (或 数据 集 市 )。 这 些 数据 仓库 的 大 小 达到 了 多 TB 级 ， 并 且 随 着 人 们 继续 
添加 新 的 维和 更 细 的 粒度 ， 它 们 的 大 小 还 在 快速 增长 中 。 

7. 日 期 和 时 间 建 模 

由 于 数据 仓库 和 数据 集 市 随 着 时 间 记 录 维 的 事实 ， 所 以 时 间 和 日 期 (之 后 简称 为 时 间 ) 
始终 会 有 一 个 维 表 ， 时 间 的 代理 键 也 始终 是 事实 表 主 键 的 组 成 部 分 之 一 。 因 为 用 户 可 能 想 在 
很 多 不 同 的 时 间 上 对 事实 进行 聚集 ， 因 此 时 间 维 可 能 含有 很 多 非 主 属性 。 另 外 ， 因 为 有 些 时 
间 特 征 是 和 国家 或 事件 相关 的 (例如 是 否 是 一 个 假期 ， 或 某 天 是 否 有 固有 的 活动 ， 如 市 日 或 
足球 比赛 )， 对 时 间 维 建 模 会 比 之 前 所 说 的 更 加 复杂 。 

图 9-12 展示 了 一 个 典型 的 时 间 维 设计 。 就 像 之 前 说 的 ， 时 间 的 代理 键 是 事实 表 主 键 的 
一 部 分 ， 并 且 是 时 间 维 表 的 主键 。 时 间 维 表 中 的 非 主 属性 包括 了 用 户 所 用 到 的 分 类 、 总 结 、 
分 组 不 随 国家 和 事件 改变 的 事实 的 全 部 特征 。 对 于 一 个 在 许多 国家 (或 在 许多 不 同 地 理 单位 
有 不 同时 间 特 征 ) 进行 商业 活动 的 组 织 ， 加 入 了 一 个 Country Calendar 表 来 保存 每 个 国家 的 
每 个 时 间 的 特征 。 这 样 ，Date 键 是 Country Calendar 表 的 外 键 ， 而 Country Calendar 表 的 每 
一 行经 过 其 复合 主键 中 的 Date 键 和 Country 的 组 合 后 都 是 唯一 的 。 在 某 一 天 可 能 会 发 生 特 
殊 的 事件 (简单 起 见 ， 假设 一 天 不 会 发 生 超 过 一 个 特殊 事件 )。 我 们 已 经 通过 建立 一 个 Event 
(事件 ) 表 规 范 化 了 Event 数据 ， 所 以 每 个 事件 的 描述 性 数据 (如 “Strawberry Festival ”或 
“Home coming Game”) 只 被 存储 一 次 。 

有 可 能 会 出 现 很 多 时 间 与 一 个 事实 所 关联 ， 例 如 事实 发 生 时 间 、 事 实 报告 时 间 、 事 实 记 
录 到 数据 库 的 时 间 和 事实 改变 值 的 时 间 等 。 其 中 的 每 一 个 都 可 能 对 某 一 类 分 析 很 重要 。 
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图 9-12 ”时 间 建 模 


8. 多 重 事实 表 
有 时 由 于 性 能 或 者 其 他 缘故 ， 一 个 星 模式 中 会 定义 不 止 一 个 事实 表 。 比 如 当 很 多 用 户 需 
要 不 同 聚 集 水 平 (不 同 表 粒 度 ) 的 数据 时 ， store ee 


通过 为 每 种 聚集 水 平定 义 不 同 的 事实 表 可 [Store key Sales ne 
以 改进 性 能 。 很 显然 这 要 与 存储 空间 做 权 | Ee 
衡 。 每 新 增加 一 个 事实 表 ， 存 储 需 求 会 显 Sales-Product 
著 增 加 。 更 一 般 地 ， 需 要 多 重 事实 表 为 不 | Productkey 
同 的 用 户 组 存储 不 同 的 维 组 合 。 lg a 
图 9-13 展示 了 一 个 典型 的 有 两 个 相关 Purchased-Product 
星 模式 的 多 重 事实 表 。 这 个 例子 中 ， 有 了 两 “| Produetkey 
个 事实 表 ， 分 别 是 一 个 星 模式 的 中 心 : 






-. 
| | umf 
| 












Receipts 





二 





Warehouse 








1 ) Sales 一 一 关于 某 天 商店 中 某 产品 人 
na 
2 ) Receipts 关于 某 天 某 个 销售 商 
为 某 个 仓库 提供 的 某 产品 的 收据 的 事实 图 9-13 一 致 维 


很 普遍 的 是 ， 关 于 一 个 或 多 个 商业 主题 的 数据 需要 为 每 个 事实 表 ( 即 Sales 和 Receipts) 而 
存 人 维 表 中 。 在 这 种 设计 中 ,使 用 了 两 种 方法 来 处 理 共享 的 维 表 。 其 一 ， 对 销售 和 收据 来 说 ， 
描述 产品 的 方式 有 很 大 不 同 ， 所 以 创建 了 两 个 不 同 的 产品 维 表 。 另 一 方面 ， 因 为 用 户 想 要 相 
同 的 时 间 描 述 ， 所 以 共用 一 个 时 间 维 表 。 这 两 种 情形 下 创建 了 一 致 维 ， 这 个 维 对 于 每 个 事实 
表 的 意义 相同 ， 也 因此 拥有 相同 的 代理 主键 。 尽 管 这 两 个 星 模式 可 能 被 存储 在 不 同 的 物理 数 
据 集 市 中 ， 如 果 维 是 一 致 的 ， 就 有 了 跨 数 据 集 市 回答 问题 的 潜力 (例如 某 个 销售 商 是 否 发 觉 销 
售 速度 更 快 、 并 能 够 在 较 少 的 时 间 内 供 货 吗 ? )。 总 体 而 言 ， 一致 维 使 用 户 有 可 能 做 下 列 事情 : 

e 共享 非 主 维 数 据 

e 保证 跨 事实 表 查 询 的 一 致 性 

e 工作 在 对 用 户 有 相同 意义 的 事实 和 商业 主题 上 

9. 层次 

很 多 时 候 ， 星 模式 中 的 一 个 维 形成 了 一 种 自然 的 、 固 定 深度 的 层次 。 例 如 地 理 层次 (市 
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场 在 一 个 州 内 、 州 在 一 个 地 区 内 、 地 区 在 一 个 国家 内 ) 和 产品 层次 (产品 的 包装 和 大 小 、 成 
捆 的 产品 、 产 品 组 中 的 捆 )。 当 维 表现 出 层次 时 ， 数 据 库 设计 者 可 以 有 两 种 基本 选择 : 

1 ) 在 一 个 最 精确 层次 的 去 规范 化 维 表 中 ， 包 含 每 一 层次 的 全 部 信息 ， 这 会 带 来 很 大 元 
余 和 更 新 异常 。 虽 然 简 单 ， 但 不 是 推荐 的 方法 。 

2 ) 使 用 一 个 1 : M 的 联系 将 维 规范 化 到 一 系列 垦 套 表 中 。 将 最 低级 的 层次 与 事实 表 关 

。 这 样 仍然 可 以 实现 在 各 个 层次 上 对 事实 表 进 行 聚集 , 但 是 用 户 只 需要 在 层次 上 进行 幅 套 
连接 或 被 给 出 一 个 预 连接 过 的 层次 视图 。 

当 层 次 深度 可 以 被 固定 时 ， 每 一 级 层次 都 是 一 个 独立 的 维 实体 。 某 些 层次 可 能 比 其 他 
层次 更 容易 使 用 这 种 模式 。 考 虑 图 9-14 中 的 产品 层次 。 每 种 产品 都 是 产品 家 族 的 组 成 部 分 ， 
产品 家 族 是 一 个 产品 分 类 的 组 成 部 分 ， 分 类 是 一 个 产品 组 的 组 成 部 分 。 如 果 每 种 产品 按照 这 
种 方式 分 层 ， 这 个 模式 会 很 顺利 。 这 样 的 层次 在 数据 仓库 和 数据 集 市 里 非常 常见 。 
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图 9-14 固定 的 产品 层次 


现在 考虑 一 个 更 一 般 的 例子 : 一 个 典型 的 咨询 公司 在 工程 某 个 时 间 段 为 客户 开发 票 。 这 
个 例子 里 的 收入 事实 表 可 能 会 展示 对 于 特定 的 时 间 段 、 客 户 、 服 务 、 员 工 、 工 程 ， 有 多 少 收 
人 已 经 付款 以 及 每 次 开发 票 的 时 间 长 度 等 。 由 于 在 同一 个 组 织 中 咨询 服务 可 能 被 分 成 不 同 部 
分 来 做 ， 如 果 想 了 解 任 一 客户 组 织 层 次 的 总 体 咨询 情况 ， 就 需要 一 个 客户 层次 。 这 是 一 个 在 
组 织 单位 之 间 递 归 的 层次 。 如 图 4-17 所 示 的 一 个 管理 层次 ， 在 规范 化 数据 库 中 最 标准 的 表 
示 方 法 是 为 company 行 添加 它 的 上 级 部 门 的 Company 键 作 为 它 的 一 个 外 键 。 

使 用 这 种 方式 来 实现 递归 联系 对 于 一 般 的 终端 用 户 是 困难 的 ， 因 为 在 任意 的 层次 上 进行 
聚集 需要 复杂 的 SQL 编程 。 一 个 解决 方案 是 通过 把 相 邻 层次 连接 到 一 般 的 分 类 上 来 将 这 些 
递归 联系 转换 为 一 个 固定 数目 的 层次 。 例 如 ， 对 于 一 个 组 织 层 次 ， 将 每 个 单位 上 的 递归 水 平 
分 组 到 企业 、 分 部 及 部 门 。 每 个 层次 的 实体 的 每 个 实例 获得 一 个 代理 主键 和 用 于 描述 当前 层 
面 上 进行 决策 所 需求 的 特征 。 这 些 实例 会 在 调和 层 上 格式 化 并 保持 。 

另外 一 个 简单 却 更 通用 的 替代 见 图 9-15。 图 9-15a 展示 了 在 数据 仓库 中 如 何 使 用 一 个 帮 
助 表 为 层次 建 模 ( Chisholm，2000 ; Kimball，1998b )。 每 个 客户 组 织 单位 的 咨询 服务 被 分 
配 了 一 个 不 同 的 代理 客户 键 和 客户 维 表 的 一 行 。 客 户 代 理 键 在 收入 事实 表 中 作为 一 个 外 键 。 
这 个 外 键 和 帮助 表 中 的 子 客户 键 (Sub customer key) 相关 联 ， 这 是 因为 收入 事实 在 最 低 水 平 
的 组 织 层 次 上 是 关联 的 。 连 接任 意 层 次 的 递归 联系 问题 是 用 户 需 要 写 很 多 次 递归 联系 连接 的 
代码 (每 个 从 属 层 都 要 写 一 次 )， 由 于 规模 很 大 ， 在 数据 仓库 中 这 些 连接 会 非常 耗 时 (除了 一 
et 帮助 表 通 过 为 每 个 组 织 子 单位 

wr hie A edt eh 一 行将 层次 抹 平 。 帮 助 表 的 每 一 行 都 有 3 个 
ia 一 行 来 自 于 其 父 单位 的 子 单位 层 数 以 及 这 个 子 单位 是 否 是 最 低层 次 或 最 高 层次 的 标 
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客户 表 


Customer key Name 


C0000001 
C0000002 
C0000003 


C0000004 
C0000005 


锣 四 部 分 实 现 


记 。 图 9-15b 描述 了 一 个 客户 组 织 层次 帮助 表 的 例子 。 
客户 维 表 


a) 使 用 帮助 表 


ABC Automotive 









Address 
ABC Automotive 100 1st St. 
ABC Auto Sales 110 1st St. 
ABC Repair 130 1st St. 
ABC Auto New Sales 110 1st St. 


ABC Auto Used Sales 110 1st St. 








Parent key Sub key Depth Lowest Topmost 


C0000002 
C0000003 
C0000004 
C0000005 


C0000001 
C0000002 
C0000003 
C0000004 
C0000005 
C0000002 
C0000004 
C0000005 
C0000003 
C0000004 
C0000005 


OO 一 ODD 一 OO 
过 思 才 过 过 五 只 改 忆 之 尼 
三 过 过 区 王 训 区 世 区 区 去 





b) 有 客户 表 和 帮助 表 的 层次 示例 
图 9-15 在 一 个 维 中 表现 层次 联系 


图 9-15a 的 收入 事实 表 包 括 了 一 个 主键 属性 Invoice number， 它 是 一 个 退化 维 的 例子 ， 
没有 有 用 的 维 属 性 。( 因 此 ,没有 对 应 维 表 的 存在 并 且 不 是 表 主 键 的 一 部 分 。) Invoice number 
也 不 是 一 个 用 于 聚集 的 事实 ， 因 为 在 这 个 属性 上 的 数学 操作 没有 意义 。 这 个 属性 被 使 用 在 
需要 探索 一 个 ODS 或 者 资源 系统 来 寻找 关于 发 票 事 务 的 额外 细节 或 者 组 合 相 关 的 事实 行 时 
(例如 同一 个 发 票 上 的 全 部 的 收入 行 )。 

当 维 表 被 帮助 表 (有 时 称 为 桥 表 或 参考 表 ) 更 进一步 规范 化 后 ， 简 单 的 星 模式 变 成 了 雪 
花 模 式 。 雪 花 模 式 非常 像 ODS 或 者 资源 数据 库 的 一 个 片段 ， 它 以 事务 表 为 中 心 ， 被 概括 为 
事实 表 ， 全 部 表 直 接 或 间接 与 事务 表 相 关联 。 很 多 数据 仓库 专家 反对 使 用 雪花 模式 ， 因 为 它 
对 用 户 更 加 复杂 ， 并 且 需 要 更 多 的 连接 操作 将 结果 放 入 一 张 表 中 。 雪 花 模式 可 能 在 规范 化 数 
据 库 能 节约 大 量 存储 空间 时 有 用 (例如 当 有 非常 多 的 元 余 和 长 文本 属性 时 )， 或 者 当 用 户 发 
现 浏 览 规范 化 表 较 为 有 有 用时， 雪花 模 式 也 会 适用 。 


9.4.3 缓 变 维 


回想 一 下 ， 数 据 仓 库 和 数据 集 市 经 常 在 数 年 的 时 间 内 跟踪 商业 活动 。 这 些 商业 活动 并 不 
是 一 成 不 变 的 : 产品 改变 大 小 和 重量 、 客 户 地 区 改变 、 商 店 更 换 布局 以 及 销售 人 员 被 分 配 到 
不 同 的 地 区 等 。 大 部 分 系统 只 记录 当年 商业 主题 的 值 (如 当前 客户 的 住址 )， 一 个 操作 型 数 
据 存 储 只 保留 很 短 改 变 的 历史 来 表明 这 些 改变 曾经 发 生 过 并 用 来 文 持 商 业 过 程 处 理 迅 速 的 改 
变 。 但 是 在 数据 仓库 或 者 数据 集 市 中 ， 我们 需要 知道 历史 值 来 匹配 事实 发 生 时 正确 的 维 描 
述 。 例 如 ， 需 要 将 一 个 销售 事实 与 当时 的 销售 事实 周期 内 相关 客户 的 描述 关联 起 来 ， 而 不 是 


第 9 茧 禾 据 合谋 313 


那个 客户 现在 的 描述 。 当 然 ， 商业 主题 与 大 多 数 事务 数据 (如 库存 水 平 ) 相 比 ， 其 改变 是 十 
分 缓慢 的 。 这 就 导致 维 数据 也 在 缓慢 改变 。 

可 能 需要 通过 以 下 方法 之 一 来 应 对 缓 变 维 ( Slowly Changing Dimension，SCD) 属性 
(Kimball, 1996b, 1999 ). 

1 ) 用 新 的 值 窗 盖 当前 值 。 但 这 是 不 可 接受 的 ， 因 为 这 消除 了 对 历史 事实 的 过 去 描述 。 
Kimball 称 此 为 1 号 方法 。 

2 ) 对 每 个 发 生变 化 的 维 属 性 ， 创 建 一 个 当前 值 字 段 ， 并 保持 很 多 旧 值 字段 (例如 为 一 
定 范围 的 历史 视图 创建 固定 数量 的 多 值 属性 )。 如 果 在 数据 保留 在 数据 仓库 期 间 可 以 预测 它 
的 改变 次 数 ， 那 么 这 种 方法 是 可 行 的 (如 果 只 保持 24 个 月 而 且 属 性 值 每 个 月 一 变 )。 然 而 这 
种 方法 只 能 运行 在 这 样 的 强 假设 前 提 下 而 不 能 泛 用 到 任何 绥 变 维 属 性 。 画 外 ,查询 会 变 得 非 
常 复杂 ， 因 为 可 能 在 查询 中 需要 决定 哪 一 列 是 需要 的 。Kimball 称 此 为 3 号 方法 。 

3 ) 每 次 维 对 象 变化 就 建立 一 个 新 的 维 表 行 ( 带 有 新 的 代理 键 )， 这 个 新 行 包含 改变 时 的 
全 部 维特 征 ， 新 的 代理 键 是 一 个 原始 的 代理 键 加 上 这 些 维 值 生效 的 开始 时 间 。 与 事实 行 关 联 
的 代理 键 必须 有 着 事实 的 时 间 值 (例如 ,事实 时 间 位 于 同一 原始 代理 键 的 维 行 的 开始 和 结束 
时 间 之 间 )。 可 能 也 想 把 改变 停止 生效 的 时 间 (对 每 个 维 对 象 当 前 行 的 最 大 可 能 时 间或 null) 
和 改变 的 原因 描述 存储 在 维 行 中 。 这 样 的 方法 允许 创建 足够 需要 的 维 对 象 改 变 ， 然 而 如 果 行 
常常 变化 或 者 行 本 身 很 长 ， 它 就 会 变 得 很 特 重 。Kimball 称 此 为 2 号 方法 ， 这 是 最 经 常 被 使 
用 的 方法 。 

某 些 维 属性 的 改变 可 能 并 不 重要 ， 因 此 1 号 方法 适用 于 这 类 属性 。2 号 方法 是 最 和 党 使 用 
的 处 理 缓 变 维 的 方法 。 在 这 种 模式 下 ， 可 能 
也 会 在 维 行 中 存 人 原 对 象 的 代理 键 值 ， 这 样 
可 以 涉及 同一 对 象 的 全 部 改变 。 事实 上 , 维 | 太一 Customer Key 
表 的 主键 变 成 了 原 代 理 键 加 上 改变 的 时 间 的 | 二 一 一 Product Key 





一 个 复合 键 ， 如 图 9-16 所 示 。 在 这 个 例子 中 ， … (其 他 键 ) 
Customer 中 每 次 属性 变化 时 ， 一 个 新 的 客户 ”| “(其 他 维 属性 ) Dollar Sales 
行 被 写 入 Customer 维 表 ， 那 一 行 的 主键 是 那 … (其 他 度量 ) 


个 客户 的 原 代 理 键 加 上 改变 的 时 间 。 非 主键 元 图 9-16 2 号 方法 的 SCD 客户 维 表 的 例子 
素 是 发 生 改 变 时 全 部 非 主 属 性 的 值 (例如 有 些 
属性 在 改变 中 会 得 到 新 值 ， 但 是 可 能 大 部 分 都 保持 着 相同 的 值 )。 


9.4.4 决定 维和 事实 


数据 集 市 中 需要 怎样 的 维和 事实 是 受 决策 环境 所 驱动 的 。 决 定 往往 基于 监视 某 些 重 要 因 
素 的 状态 (例如 库存 周转 率 ) 或 预测 重要 事件 (例如 顾客 流失 ) 的 具体 指标 。 很 多 决策 基于 
多 重 指标 、 财 政 平衡 、 流 程 效 率 、 客 户 和 商业 增长 因素 的 混合 。 通 党 决策 以 问题 为 起 点 ， 例 
如 上 个 月 销售 额 是 多 少 ， 为 什么 能 卖 出 这 个 数量 ， 下 个 月 销量 将 如 何 ， 如 何 做 才能 卖 出 想 卖 
的 数量 等 。 

这 些 问题 的 答案 经 常 导致 新 问题 的 提出 。 因 此 ， 即 使 在 一 个 给 定 的 域 上 已 经 能 预测 到 人 
们 会 问 数据 集 市 的 起 始 问 题 ， 也 不 可 能 完全 预测 到 用 户 想 知道 的 全 部 问题 。 这 也 就 是 独立 数 
据 集 市 被 反对 的 原因 。 使 用 相关 数据 集 市 很 容易 扩展 一 个 已 经 存在 的 数据 集 市 或 者 访问 其 他 
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数据 集 市 或 EDW 从 而 将 新 间 题 需要 的 数据 加 入 现 有 数据 集 市 中 。 

决定 在 数据 集 市 中 放 入 什么 数据 的 起 始点 是 那些 用 户 最 先 想 要 得 到 回答 的 问题 。 每 个 问 
题 可 以 被 分 散 成 用 户 想 知 道 的 商业 信息 (事实 ) 和 用 于 访问 、 排 序 、 分 组 、 概 括 和 表示 事实 
的 准则 ( 维 属 性 )。 一 个 简单 的 描述 问题 的 模型 是 通过 一 个 像 图 9-17a 中 那样 的 和 矩阵。 在 图 
中 ，, 行 是 修饰 词 ( 维 或 维 属 性 )， 列 是 指标 (事实 )。 甜 阵 的 元 素 表 明了 每 个 问题 有 着 怎样 的 
修饰 词 和 指标 。 例 如 3 号 问题 使 用 了 投诉 数 这 一 事实 以 及 产品 分 类 、 客 户 区 域 、 年 和 月 这 些 
维 属性 。 任 何 问题 集 可 以 被 一 个 或 者 多 个 星 模式 来 回答 。 例 如 图 9-17a 中 因为 事实 的 粒度 不 
同 ， 所 以 设计 了 两 个 事实 表 ， 展 示 在 图 9-17b 中 (假设 投诉 与 商店 和 售货员 无 关 )。 同 样 在 
产品 和 产品 之 间 以 及 客户 和 客户 区 域 之 间 创 建 了 层次 联系 。 将 季节 从 月 的 概念 中 分 离 出 来 ， 
并 且 让 它 成 为 区 域 相关 的 。Product、Customer 和 Month 是 一 致 维 是 因为 它们 被 两 个 事实 表 
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1. 过 去 3 年 ， 每 年 中 北美 超过 50 岁 客户 的 健康 和 美容 产品 总 销售 
额 是 多 少 ? 

2. 今 年 第 一 季度 每 个 产品 最 高 销售 额 的 销售 员 的 名 字 是 什么 ? 

3. 去 年 每 个 食物 产品 上 有 多 少 欧洲 客户 投诉 ? 今年 这 一 数量 是 如 
何 按 月 变化 的 ? 

4. 有 着 夏季 月 均 最 高 的 便装 销量 的 商店 的 名 字 是 什么 ? 


dollar sales 


"nr number of complaints 


avg. gty. sales 


SeasSon 









PRODUCT 
Calagcrnid SALESPESONR 
CategoryTitle SalespersonlD 
SalespersonName 


NN 

PRODUCT 
ProductiD 

ProductName 


CUSTOMER 
CustomeriD 


CustomerAge 


NU 





CUSTOMER 

ProductD TERRITORY 

MonthiD TerritoryiD 
customerlD je TerritoryName 


ES | 3 
"eicet 
A | 


b) 销售 和 客户 服务 追踪 的 星 模式 
图 9-17 决定 维和 事实 
所 以 ， 如 果 图 9-17 描述 的 分 析 类 型 表现 了 一 个 决定 维 模型 的 维和 事实 的 起 始点 ， 你 什 
么 时 候 会 知道 你 完成 了 呢 ? 我们 并 不 知道 这 个 问题 的 一 个 明确 答案 (希望 你 实际 上 从 来 不 
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会 完成 ， 而 只 是 需要 继续 扩展 这 个 数据 模型 的 覆盖 面 )。 然 而 ，Ross( 2009 ) 确定 了 Ralph 
Kimball 和 Kimball 大 学 所 认为 的 维 建 模 的 10 个 必要 规则 的 讨论 。 表 9-3 总 结 了 这 些 规则 ， 
并 认为 你 会 发 现 这 些 规则 是 本 章 所 提出 的 许多 原则 的 有 用 合成 。 当 这 些 规则 都 满足 了 ， 你 就 
(暂时 ) 完成 了 。 
表 9-3” 维 建 模 的 10 个 必要 规则 

1. 使 用 原子 事实 : 用 户 最 终 会 需要 详细 数据 ， 即 使 他 们 一 开始 的 需求 是 用 于 概括 的 事实 

2. 建立 单 过 程 事 实 表 : 每 个 事实 表 应 该 只 解决 一 个 商业 过 程 的 重要 度量 ， 例 如 接收 客户 订单 或 下 材料 采购 订单 

3. 每 个 事实 表 都 要 包含 一 个 时 间 维 : 事实 需要 被 相关 的 时 间 特 征 所 描述 

4. 执行 一 致 粒度 : 事实 表 中 的 每 个 度量 都 必须 是 相同 连接 键 (相同 粒度 ) 的 原子 度量 。 

5. 不 允许 空 键 存 在 于 事实 表 中 : 事实 适用 于 键 值 的 连接 ， 可 能 需要 帮助 表 来 表示 一 些 M:N 联系 

6. 使 用 层次 ， 理解 维 的 层次 并 且 谨 慎 选 择 雪花 模式 或 去 规范 化 至 一 维 

7. 解码 维 表 : 存储 代理 键 的 描述 和 与 维 表 关联 的 事实 表 中 所 用 的 代码 ， 可 以 用 于 报告 标签 和 查询 过 渡 

8. 使 用 代理 键 : 全 部 维 表 的 行 需要 被 代理 键 所 标识 ， 代 理 键 包括 展示 关联 产品 和 资源 系统 键 的 描述 性 的 列 

9. 一 致 维 : 多 事实 表 结 果 中 需要 用 到 一 致 维 

10. 平衡 需求 和 实际 数据 : 很 不 幸 ， 源 数据 可 能 不 足够 精确 来 支持 全 部 商业 需求 ， 所 以 必须 在 技术 上 将 其 与 用 户 所 
需 相 平 稀 

来 源 : Ross ( 2009 ) 


9.5 大 数据 和 列 式 数据 库 


大 数据 并 不 是 小 数据 问 往 成 为 的 东西 ， 也 没有 校园 中 的 大 数据 (BDOC)。 大 数据 是 一 个 
没有 明确 定义 的 术语 ， 指 的 是 数据 库 的 容量 、 速 度 和 多 样 性 无 法 使 用 和 常用 的 关系 数据 库 在 可 
容忍 的 时 间 内 来 获取 、 管 理 和 处 理 数据 。 同 样 ， 大 数据 的 大 小 也 没有 被 明确 定义 ， 在 一 个 数 
据 库 中 的 数据 可 能 小 到 几 十 TB， 大 到 数 PB。 大 数据 包括 结构 化 数据 ， 也 包括 非 结构 化 的 数 
据 ， 如 博客 、 社 交 网 络 内 容 、 网 上 文本 和 文件 、 详 细 了 呼叫 记录 、RFID 信号 数据 、 研 究 数据 、 
军事 侦察 和 药品 记录 等 。 可 能 你 会 记得 2010 年 9 月 的 一 个 电视 游戏 秀 “Jeopardy”，IBM 的 
Watson 击败 了 Ken Jennings 和 Brad Rutter。 这 就 是 一 个 有 着 非常 壮观 设置 的 大 数据 的 处 理 。 
Bughin、Livingston 和 Marwaha 曾 说 过 (2011 ) :“ 大 规模 数据 的 采集 和 分 析 正 在 快速 成 为 
一 个 新 差异 化 竞争 的 领域 。” 例 如， 药物 生产 厂商 AstraZeneca 和 最 大 的 健康 险 公 司 之 一 的 
WellPoint 开始 联合 开发 一 个 大 数据 工程 来 将 医疗 保险 和 临床 数据 结合 起 来 以 便 寻 找 改 进 患 
者 健康 护理 的 方法 。 

数据 仓库 和 商务 智能 ( BI) 查询 一 般 会 访问 一 些 列 的 许多 行 的 通常 值 ， 例 如 根据 销售 数 
据 来 找 出 西北 地 区 销量 排名 前 10 的 产品 。 而 事务 处 理 任务 则 是 在 许多 列 中 寻找 一 行 或 相关 
几 行 的 值 ， 例 如 某 一 个 客户 订单 和 它 相 关 的 客户 记录 与 产品 信息 。 

某 些 RDBMS 销售 商 (如 Oracle、IBM) 已 经 为 适应 分 析 查 询 处 理 加 入 了 新 的 特性 。 故 
外 一 些 销售 商 (如 Teradata、Netezza) 则 已 经 开发 了 全 新 的 关系 数据 库 引 擎 来 处 理 数据 仓库 
和 商务 智能 查询 。 这 些 销 售 商 围绕 着 标准 的 行 和 列表 的 关系 数据 模型 和 数据 按照 行 记录 存储 
的 物理 结构 (对 行 记录 将 数据 存储 为 文件 ， 在 每 一 记录 中 将 列 作为 字段 ) 建立 了 各 自 的 技术 。 
而 这 些 技术 都 产生 在 大 约 30 年 前 ， 远 早 于 大 数据 的 时 代 。 很 多 新 兴 的 销售 商 提 出 需要 使 用 
新 的 存储 结构 来 解决 大 数据 环境 下 的 分 析 查 询 一 一 将 数据 基于 列 来 存储 而 不 是 基于 行 。 即 将 
现 有 的 表 结 构 旋 转 90 度 。 目 前 ， 大 部 分 传统 数据 仓库 技术 销售 商都 提供 两 种 产品 : 标准 关 
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系 表 和 面 回 列 的 产品 。 使 用 者 可 以 按照 自己 的 情形 来 选择 使 用 。 

列 式 产 品 的 销售 商 提 出 使 用 这 样 的 结构 可 以 减 小 存储 空间 (因为 使 用 了 数据 压缩 技术 ， 
例如 相同 数据 只 存储 一 次 ) 并 可 加 速 查询 处 理 速 度 (因为 数据 是 物理 上 为 支持 分 析 查 询 而 
组 织 的 )。 数 据 仓 库 的 概念 和 逻辑 数据 模型 并 没有 改变 。SQL 仍然 是 查询 语言 ， 没 有 为 查询 
代码 的 书写 增加 其 他 困难 。 该 DBMS 与 传统 的 面向 行 的 RDBMS 相 比 ， 只 是 简单 改变 了 存 
储 和 访问 数据 的 方式 。 数 据 压 缩 和 存储 依赖 于 数据 和 查询 ， 例 如 Vertica ( HP 的 一 个 部 门 ) 
是 列 式 数 据 库 管理 系统 提供 商 的 先驱 者 之 一 ， 其 逻辑 关系 数据 库 在 SQL 中 的 定义 与 其 他 
RDBMS 的 相同 。 随 后 一 个 样 例 查 询 和 数据 的 集合 被 提供 到 数据 库 设 计 工 具 中 。 这 个 工具 分 
析 查 询 的 谓词 ( WHERE 子 句 ) 和 样本 数据 中 的 宛 余 后 ， 给 出 数据 压缩 模式 和 列 数据 存储 方 
式 的 建议 。 对 于 不 同 的 谓词 数据 (数值 、 文 本 、 受 限 范围 还 是 广 范 围 等 ) 使 用 不 同 的 数据 压 
缩 技 术 。 数 据 库 管 理 员 可 以 改写 这 个 设计 工具 提供 的 推荐 。 

列 式 数据 库 技 术 折 中 了 计算 时 间 和 存储 空间 (正常 情况 下 有 超过 70% 的 数据 被 压缩 )。 例 
如 ， 一 个 客户 ID 在 数据 库 中 只 存储 一 次 ， 无 论 是 在 客户 数据 标识 中 还 是 作为 外 键 存在 的 客 
户 订 单 、 文 付 、 产 品 退 贷 、 访 问 服务 等 其 他 活动 中 。 其 他 列 的 数据 也 与 此 相同 ,例如 性 别 、 
城市 名 、 街 道 名 、 团 体 名 等 。 使 用 内 部 数据 编码 来 关联 整个 数据 库 中 的 商业 数据 的 值 和 物 
理 数 据 库 引用 的 值 。 这 样 一 个 查询 可 以 迅速 地 在 简明 的 存储 空间 中 查找 与 该 查询 中 使 用 的 列 
值 相关 的 代码 。 相 对 于 基于 行 的 关系 数据 库 而 言 ， 列 式 数 据 库 的 优势 是 基于 如 下 的 假设 : 磁 
盘存 储 空 间 和 访问 磁盘 存储 的 带宽 的 代价 要 比 从 压缩 存储 中 重 构 商业 数据 到 SQL 的 关系 表 
结果 格式 的 CPU 计算 时 间 高 。 在 这 种 情况 下 ， 使 用 压缩 存储 可 以 减少 全 部 查询 的 处 理 时 间 。 

物理 列 式 数据 库 的 详细 技术 超出 了 本 书 的 范围 ， 这 方面 的 讨论 更 着 重 于 DBMS 和 物理 
数据 结构 的 设计 而 不 是 数据 库 的 设计 。 然 而 ,你 需要 知道 新 的 从 底层 开始 为 分 析 查 询 来 设 
计 的 DBMS 技术 正在 兴起 并 且 应 该 被 数据 仓库 环境 的 总 体 体 系 结构 设计 所 考虑 。 主 要 的 列 
式 数 据 库 销售 商 包 括 Sybase 和 Vertica，Infobright 也 有 一 个 在 MySQL 上 运行 的 开源 选择 。 
Teradata 在 它们 的 数据 仓库 DBMS 中 为 客户 提供 了 使 用 列 式 或 传统 表 结 构 的 选项 。 


9.6 NoSQL 


并 不 是 所 有 数据 都 能 轻易 被 结构 化 放 人 关系 表 中 ， 再 被 SQL 语言 来 查找 、 排 序 和 按 列 
聚集 。 电 子 邮件 、 网 站 、 文 本 信息 和 其 他 一 些 文本 元 素 是 大 数据 的 一 大 组 成 部 分 ， 它 们 包 
含 着 潜在 的 见解 。 例 如 ， 非 结构 化 数据 (例如 对 新 产品 的 反应 、 对 政治 事件 的 观点 、 研 究 总 
结 、 外 交 公 文 和 客户 投诉 ) 都 可 以 被 用 来 进行 趋势 挖掘 。 

NoSQL 是 “ Not only SQL ”的 简称 ， 是 一 类 使 用 比 行列 形式 的 关系 数据 库 更 灵活 结构 的 
用 于 存储 和 访问 文本 及 其 他 非 结 构 化 数据 的 数据 库 技术 。NoSQL 适用 于 用 户 不 确定 要 使 用 
怎样 的 数据 结构 的 情形 ， 它 的 普遍 物理 结构 是 键 值 对 的 字符 串 。NoSQL 技术 在 SQL 上 增加 
了 一 种 特殊 的 应 用 程序 接口 或 者 API 来 允许 SQL 处 理 未 以 传统 关系 数据 库 格 式 存 储 的 数据 。 
NoSQL 的 强大 之 处 在 于 可 以 比 传统 关系 DBMS 更 快 更 有 效 地 处 理 大 容量 的 非 结 构 化 数据 。 

很 多 数据 仓库 销售 商 (如 Oracle，IBM) 已 经 在 他 们 的 产品 中 增加 了 某 些 形式 的 NoSQL 
功能 来 支持 存储 和 分 析 超 大 规模 (如 10”) 的 文本 和 图 形 数据 。Oracle 的 产品 基于 Java 和 
由 加 州 大 学 伯克利 分 校 开发 的 开源 数据 库 管理 系统 Berkeley DB。IBM 的 NoSQL 产品 使 用 
IBM DBMSs DB2 和 Informix。 总 而 言 之 , NoSQL 的 实现 需要 在 SQL 或 者 特定 查询 语言 (如 
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UnQL ( 非 结 构 化 查询 语言 )) 上 进行 扩展 。 和 XML 文件 的 标签 和 存储 结构 有 关 的 XQuery 
( 见 第 8 章 ) 是 男 一 种 NoSQL 查询 语言 。 主 要 产品 与 传统 数据 仓库 和 关系 数据 库 系统 无 关 
的 销售 商 包 括 MongoDB、CouchDB 和 OrientDB。IBM 的 Lotus Notes 也 被 认为 是 一 种 早 
期 的 NoSQL 技术 。 一 些 人 认为 面向 对 象 的 数据 库 系 统 和 它们 相关 联 的 查询 语言 也 是 一 种 
NoSQL。 许 多 NoSQL 系统 并 没有 涵盖 全 部 的 DBMS 功能 。 事 实 上， 一 些 NoSQL 技术 只 对 
内 存 数 据 库 有 意义 ， 即 数据 不 存储 在 磁盘 存储 设备 上 。 

Apache Cassandra 是 一 个 广泛 应 用 的 NoSQL 技术 ， 它 是 由 Facebook 开发 的 ， 用 于 存储 
和 访问 Facebook 用 户 市 来 的 巨大 数量 的 状态 更 新 和 内 容 。Cassandra 是 一 种 典型 的 NoSQL 
技术 ， 因 为 它 存 在 于 分 布 式 数 据 库 环境 中 。Wayner ( 2011 ) 给 出 了 Cassandra 的 解释 和 许多 
领先 的 NoSQL 数据 库 系 统 的 总 览 。 来 自 于 Apache Software Foundation 的 Hadoop 和 其 相关 
的 来 目 于 Google 的 MapReduce 数据 过 滤 算 法 被 很 多 的 搜索 引擎 以 及 其 他 软件 所 使 用 ， 以 搜 
索 存 储 在 网 络 上 极为 庞大 的 非 结 构 化 数据 仓库 。 这 些 技术 的 并 行 和 分 布 式 的 性 质 加 上 使 用 灵 
活 的 数据 存储 结构 允许 进行 快速 的 文本 数据 的 关键 词 搜 索 。Hadoop 和 MapReduce 支持 有 效 
的 索引 和 搜索 广泛 的 非 结 构 化 数据 。 许 多 数据 仓库 技术 在 它们 的 结构 化 数据 分 析 服 务 以 外 ， 
还 提供 了 Hadoop 和 MapReduce 接口 。 


9.7 ”用 万 接口 


虽然 已 经 介绍 了 需要 用 来 开始 设计 数据 仓库 的 大 部 分 知识 ， 你 可 能 仍然 在 怀疑 “我 能 用 
它 做 什么 2 ”。 即 使 是 一 个 载 人 了 相关 数据 的 精心 设计 的 数据 集 市 或 企业 数据 仓库 ， 可 能 也 
不 会 被 很 好 使 用 ， 除 非 它 为 用 户 提供 了 强力 而 直观 的 界面 来 使 他 们 很 容易 地 访问 和 分 析 那 些 
数据 。 在 这 一 小 节 中 给 出 了 一 个 现代 数据 仓库 和 集 市 接口 的 详细 介绍 。 

有 很 多 工具 可 以 用 来 查询 和 分 析 存 储 在 数据 仓库 和 数据 集 市 中 的 数据 。 这 些 工 具 可 以 如 
下 进行 分 类 : 

e 传统 查询 和 报表 工具 

e OLAP、MOLAP 和 ROLAP 工具 

e 数据 可 视 化 工具 

e 商业 成 果 管 理 和 仪表 盘 工 具 

e 数据 挖 据 工具 

传统 查询 和 报表 工具 包括 电子 表格 、 个 人 电脑 数据 库 以 及 报表 撰写 部 和 生成 器 。 由 于 
篇 幅 的 缘故 (以 及 在 其 他 地 方 进行 了 介绍 )， 本 章 中 不 讨论 这 些 工 具 。 本 市 主要 描述 剩 下 的 4 
类 工具 ， 在 此 之 前 ， 首 先 讨 论 一 下 元 数据 的 作用 。 


9.7.1 元 数据 的 作用 


建立 一 个 用 户 友好 界面 的 首要 需求 是 提供 一 个 让 用 户 容 易 理 解 的 商业 术语 来 描述 数据 集 市 
中 数据 的 元 数据 的 集合 。 图 9-5 曾经 展示 了 元 数据 和 数据 集 市 在 3 层 数据 体系 结构 中 的 关联 。 

与 数据 集 市 相关 联 的 元 数据 常 被 称 为 “数据 目录 ”或 其 他 相似 术语 。 元 数据 相当 于 数据 
集 市 中 数据 的 一 种 “黄页 ”目录 。 它 应 该 使 用 户 容 易 回 答 下 列 问 题 : 

1 ) 数据 集 市 中 描述 的 是 什么 主题 ? (典型 的 主题 如 客户 、 患 者 、 学 生 、 产 品 、 课 程 等 。) 

2 ) 数据 集 市 中 有 怎样 的 维和 事实 ? 事实 表 的 粒度 如 何 ? 
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3 ) 数据 集 市 中 的 数据 是 如 何 从 企业 数据 仓库 的 数据 中 派生 出 的 ? 派生 过 程 中 使 用 了 什 
么 规则 ? 

4 ) 企业 数据 仓库 中 的 数据 是 如 何 从 操作 型 数据 中 派生 出 的 ? 派生 过 程 中 使 用 了 什么 规则 ? 

5 ) 什么 样 的 报表 和 预定 义 查询 对 这 些 数 据 是 可 用 的 ? 

6 ) 怎样 的 下 外 和 其 他 分 析 技 术 是 可 用 的 ? 

7 ) 谁 对 数据 集 市 中 的 数据 质量 负责 ? 应 该 向 谁 请 求 修改 ? 


9.7.2 SQL OLAP 查询 


最 广泛 使 用 的 数据 库 查 询 语言 SQL ( 见 第 6 章 和 第 7 章 ) 正在 被 扩展 为 支持 数据 仓库 环 
境 下 某 些 类 型 的 计算 和 查询 。 大 体 来 说 ，SQL 并 不 是 一 种 分 析 型 语言 (Mundy，2001 )。 分 
析 型 查询 的 核心 是 进行 分 类 (如 按照 维特 征 分 组 数据 )、 聚 集 (如 创建 每 个 类 别 的 平均 值 ) 和 
排序 〈 如 在 某 些 类 别 中 找 出 有 最 高 平均 月 销量 的 客户 ) 的 能 力 。 考 虑 如 下 商业 问题 : 

对 于 销售 的 每 个 产品 ， 哪 个 客户 是 最 大 的 购买 者 ? 给 出 产品 ID 和 描述 、 客 户 ID 和 姓 
名 、 该 客户 购买 那个 产品 的 总 数 ， 按 照 产品 ID 的 顺序 给 出 。 

即使 标准 SQL 面临 着 诸多 限制 ， 这 样 的 分 析 型 查询 也 可 以 不 需要 OLAP 扩展 就 能 写 出 。 
使 用 本 书 提 供 的 Pine Valley 家 具 公 司 数据 库 ， 可 以 这 样 写 出 这 个 查询 : 


SELECT P1.Productld, ProductDescription, C1.Customerld, 
CustomerName,SUM(OL1.OrderedQuantity) AS TotOrdered 
FROM Customer T AS C1, Product T AS P1, OrderLine T 

AS OL1, Order_T AS O1 
WHERE C1.Customerld = O1.Customerld 
AND O1.Orderld = OL1.Orderld 
AND OL1.Productld = P1.Productld 
GROUP BY Pi1.Productld, ProductDescription, 
C1.Customerld, CustomerName 
HAVING TotOrdered >= ALL 
(SELECT SUM(OL2.OrderedQuantity) 
FROM OrderLine T AS OL2, Order T AS O2 
WHERE OL2.Productld = P1.Productld 
AND OL2.O0rderld = O2.0Orderld 
AND O2.Customerld <> C1.Customerld 
GROUP BY O2.Customerld) 
ORDER BY P1.Productld; 


这 个 方法 使 用 了 一 个 关联 子 查 询 来 对 每 个 产品 在 全 部 客户 中 找到 了 它们 的 总 数量 集合 ， 
然后 外 层 的 查询 选择 出 哪个 客户 购买 的 总 量 比 这 个 值 高 或 相等 。 除 非 你 写 过 很 多 类 似 的 查 
询 ， 否 则 它 开发 起 来 很 困难 并 且 经 常 超出 了 即使 是 训练 有 素 的 终端 用 户 的 能 力 。 而 且 这 个 查 
询 是 相当 简单 的 ， 因 为 它 没有 多 类 别 ， 没 有 要 求 根据 时 间 改 变 ， 没有 想 按照 图 表 的 格式 给 出 
结果 。 找 出 销量 排 在 第 二 的 结果 甚至 要 难 一 些 。 

某 些 版 本 的 SQL 支持 特殊 的 子 句 可 以 简单 地 书写 排序 问题 。 例 如 Microsoft SQL Server 
和 其 他 一 些 RDBMS 支持 FIRST n、TOP n、LAST n 和 BOTTOM n 等 子 句 。 这 样 ， 前 面 所 
述 的 查询 可 以 被 大 大 简化 : 在 外 层 查 询 的 SUM 之 前 加 上 TOP1 从 而 消除 HAVING 及 子 查 询 。 


9.7.3 ”联机 分 析 处 理工 具 


一 种 专门 类 别 的 工具 被 开发 出 来 为 用 户 提供 数据 的 多 维 视图 。 这 些 工具 经 常 也 为 用 户 提 
供 一 个 图 形 界 面 从 而 使 得 用 户 能 更 容易 地 分 析 数 据 。 在 最 简单 的 例子 中 ， 数 据 可 以 看 作 一 个 
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简单 的 三 维 立 方 体 。 

联机 分 析 处 理 ( OLAP) 是 一 组 查询 与 报表 工具 ， 为 用 户 提 供 多 维 数据 视图 并 允许 用 户 
用 简单 的 窗口 技术 分 析 数 据 。 术 语 联 机 分 析 处 理 意 在 与 更 传统 的 术语 联机 事务 处 理 ( OLTP) 
做 对 比 。 这 两 种 处 理 的 差异 列举 在 表 9-1 中 。 术 语 多 维 分 析 常 用 作 OLAP 的 同义词 。 

一 个 典型 OLAP 的 “数据 立方 体 ”( 或 多 维 视图 ) 的 例子 见 图 9-18。 这 个 三 维 视 图 与 
图 9-10 中 的 星 模式 十 分 接近 。 图 9-18 中 的 两 个 维 对 应 于 图 9-10 的 维 表 (PRODUCT 和 
PERIOD)， 第 三 个 维 (measures)) 对 应 于 图 9-10 中 事实 表 (SALES) 中 的 数据 。 





Measure 


Product: Shoes 


图 9-18 ”数据 立方 体 切 片 


OLAP 实际 上 是 对 许多 数据 仓库 和 数据 集 市 访问 工具 的 一 般 称 呼 (Dyché，2000 )。 关 
系 OLAP ( ROLAP) 使 用 SQL 的 变种 ， 将 使 用 星 模式 或 者 其 他 规范 化 或 去 规范 化 的 表 集 合 
的 数据 库 看 作 传 统 关 系数 据 库 。ROLAP 可 以 直接 访问 数据 仓库 或 数据 集 市 。 多 维 OLAP 
(MOLAP) 工具 将 数据 载 入 一 个 中 间 结 构 ， 通 常 是 三 维 或 多 维 数组 〈 超 立方 体 )。 由 于 它 十 分 
流行 ， 因 此 将 在 之 后 的 几 个 小 节 介 绍 MOLAP。 和 需要 注意 的 是 ,在 MOLAP 中 ， 数 据 不 是 简 
单 地 被 看 成 一 个 多 维 超 立方 体 ， 而 是 一 个 MOLAP 数据 集 市 。 这 个 数据 集 市 从 数据 仓库 或 数 
据 集 市 中 提取 数据 ， 并 存储 到 一 个 专门 的 独立 的 数据 存储 中 ， 其 中 数据 只 能 通过 一 个 多 维 的 
结构 被 查看 。 其 他 一 些 不 常见 的 OLAP 工具 类 型 如 数据 库 OLAP ( DOLAP)， 它 在 DBMS 查 
询 语言 中 包括 了 OLAP 功能 ， 还 有 混合 OLAP ( HOLAP)， 它 允许 通过 多 维 立 方 体 和 关系 查 
询 语 言 两 种 方式 进行 访问 。 

1. 立方 体 切片 

图 9-18 展示 了 一 个 典型 的 MOLAP 操作 : 对 数据 立方 体 切片 来 获取 一 个 简单 的 二 维 表 
或 视图 。 图 9-18 中 是 一 个 shoes 产品 的 切片 。 结 果 表 中 按照 时 期 (月 ) 给 出 了 这 个 产品 的 3 
个 度量 参数 (数量 、 收 入 、 成 本 )。 其 他 视图 也 可 以 被 用 户 使 用 简单 的 “ 拖 放 ”操作 来 轻易 
创建 。 这 类 操作 党 被 称 为 立方 体 切 片 和 切 块 。 

一 个 和 立方 体 切 片 和 切 块 很 相近 的 操作 是 数据 旋转 (类似 于 Microsoft Excel 中 的 旋转 )。 这 
个 术语 指 的 是 通过 旋转 一 个 特定 的 数据 点 的 视图 来 获得 其 他 视角 。 例 如 图 9-18 展示 了 shoes 在 
4 月 的 销量 是 400 单位 。 分 析 者 可 以 旋转 这 个 视图 来 获得 同一 个 月 内 每 间 商 店 的 shoes 销量 。 
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2. 下 入 
为 一 种 在 多 维 分 析 中 常用 的 操作 是 下 钻 一 一 在 更 细 的 精度 水 平 上 分 析 一 个 给 定 的 数据 集 
合 。 图 9-19 给 出 了 一 个 下 销 的 例子 。 图 9-19a 给 出 了 一 个 给 定 品牌 的 3 种 规格 (2 包 、3 包 


和 6 包 ) 纸巾 (towel) 销量 的 概括 报表 。 然 而 纸巾 
有 不 同 的 颜色 ， 分 析 师 想 知道 这 3 种 包装 规格 下 每 
工具 ， 通 过 忌 标 的 点 击 可 以 很 容易 地 获取 这 个 数据 。 | Sorfwe | 一 pace 一 550 一 
ea 9-19b 中 。 注 意 到 下 销 相 i 
当 于 增加 了 一 个 新 列 到 原来 的 结果 中 。( 这 个 例子 中 
det Ae re [rocaon so0 | Cur | saies- 
增加 了 一 个 颜色 属性 列 。) 

执行 一 次 下 钻 (如 这 个 例子 中 ) 可 能 需要 一 一 
OLAP 工具 “返回 ”到 数据 仓库 中 获得 下 外 需要 的 

ofTowe -pac 

























详细 数据 。 这 个 类 型 的 操作 只 有 在 OLAP 工具 ( 没 


有 用 户 参 与 情况 下 ) 可 以 获取 元 数据 集成 的 情况 下 apack 
才能 执行 。 有些 工具 甚至 允许 OLAP 工具 在 给 定 的 “| Sorrowel | 3:pack | Green | $25 


查询 需要 的 情况 下 返回 到 操作 型 数据 。 


3. 多 于 3 维 的 概括 SofTowel| epack White | $30 
使 用 一 个 电子 表格 的 行 、 列 和 页 来 表示 三 维 超 $20 
立方 体 很 简单 。 但 是 ， 可 以 使 用 级 联 行 或 列 以 及 下 b) 加 入 了 颜色 属性 的 下 钻 
拉 列 表 来 展示 更 多 维 数据 的 不 同 切片 。 图 9-20 展示 图 9-19 下 钻 示 例 


了 来 日 Microsoft Excel 数据 透视 表 的 一 部 分 ， 它 表示 了 4 个 维 ， 将 travel method 和 number 
of days 级 联 到 了 列 中 。OLAP 查询 和 报表 工具 常常 允许 这 种 方式 来 处 理 受 到 二 维 表达 (打印 
或 显示 空间 ) 限制 的 共享 维 。 下 一 节 要 讨论 的 数据 可 视 化 工具 允许 用 户 使 用 形状 、 颜 色 和 其 
他 图 形 性 质 来 同时 展示 多 于 3 维 的 数据 。 


Travel Method No. of Days 
Average of Price 
re = 
6 7 8 10 14 16 21 32 60 
Seville 


Aviemore 135 135 
Barcelona 
Black Forest 69 69 

95 95 
Skiathos 429 429 
69 95 135|99.66666667| 198 292 484 199 343 234 429 750 1128|424.5384615 
图 9-20 ”四 维 数据 透视 表 的 例子 : Country (页 )、Resort Name ( 行 )、Traval Method 和 No. of Days( 列 ) 






















Cork 
Grand Canyon 
Great Barrier Reef 


Paris—Euro Disney 
Prague 
199 
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9.7.4 数据 可 视 化 


当 数 据 被 以 图 表 的 形式 展现 出 来 后 ， 人 类 的 视觉 常常 能 辨识 模式 。 数 据 可 视 化 是 指 为 了 
人 类 分 析 而 将 数据 用 图 形 或 多 媒体 的 形式 表现 出 来 。 数 据 可 视 化 的 优点 包括 更 好 的 发 现 趋势 
和 模式 的 能 力 以 及 发 现 相关 性 和 聚 簇 的 能 力 。 数 据 可 视 化 常常 与 数据 挖掘 和 其 他 分 析 技 术 一 
同 使 用 。 

本 质 上 ， 数 据 可 视 化 是 一 种 以 图 像 而 非 数 字 或 文本 展示 多 维 数据 的 方法 。 所 以 精确 值 常 
党 不 会 显示 ， 更 需要 被 显示 的 是 数据 之 间 的 联系 。 随 着 OLAP 工具 的 使 用 ， 图 中 的 数据 通 
第 由 SQL 查询 数据 库 (或 电子 表格 ) 的 结果 计算 得 来 。SQL 查询 由 OLAP 或 数据 可 视 化 软 
件 根 据 用 户 的 指示 目 动 生成 。 

图 9-21 给 出 了 一 个 使 用 数据 可 视 化 工具 Tableau 得 到 的 销售 数据 的 可 视 化 例子 。 这 个 可 
视 化 使 用 了 一 种 简单 的 small multiples 技术 ， 它 将 很 多 图 放 到 了 一 个 页 面 来 支持 比较 。 每 个 
小 图 中 ， 横 轴 是 SUM(Sales Total)， 纵 轴 是 SUM(Gross Profit)。 根 据 区 域 和 时 间 (年 ) 划分 
出 了 不 同 的 图 ,不 同 的 市 场 片 段 在 图 中 用 不 同 的 标记 给 出 。 用 户 简 单 地 拖 放 菜单 中 这 些 度量 
和 维 ， 然 后 选择 一 种 可 视 化 形式 或 者 让 工具 目 己 找 出 一 种 合适 的 形式 。 用 户 只 需要 说 明 他 想 
要 以 何 种 形式 看 到 哪些 数据 ， 而 不 需要 关心 数据 是 如 何 从 数据 集 市 或 数据 仓库 中 获得 的 。 


Sheet 1 





3 


OK 


一 ws 
SUM(Gross Profit) 
| 本 
= 
起 
吧 
有 





注 : 按照 订单 的 年 份 和 区 域 分 割 的 销售 总 量 与 毛利 润 之 间 的 关系 ， 不 同形 状 代表 不 同 的 市 场 片 段 。 


图 9-21 使 用 small multiples 技术 的 数据 可 视 化 示例 


9.7.5 ”商业 成 果 管 理 和 仪表 盘 


商业 成 果 管 理 ( BPM) 系统 允许 管理 员 测 量 、 监 控 和 管理 完成 组 织 目 标的 关键 活动 和 处 
理 。 仪 表盘 常用 于 提供 一 个 在 BPM 支持 下 的 信息 系统 。 正 如 像 那 些 在 汽车 和 飞机 驾驶 室 中 
的 仪表 盘 一 样 ， 它 包括 显示 组 织 不 同方 面 的 各 种 展示 。 最 高 级 的 仪表 盘 是 执行 仪表 盘 ， 基 于 
一 个 平衡 的 计 分 卡 ， 不 同 的 展示 了 不 同 处 理 和 方向 (如 操作 效率 、 金 融 状态 、 客 户 服务 、 销 
量 和 人 力 资源 ) 的 不 同 指标 。 仪 表盘 的 每 个 显示 都 用 不 同 的 方式 强调 不 同 的 区 域 。 例 如 一 个 
显示 可 能 会 提醒 关键 客户 和 他 们 的 购买 。 另 一 个 显示 可 能 使 用 红绿灯 符号 〈 红 黄 绿 ) 来 表明 
关键 的 生产 性 能 指标 是 否 位 于 可 容忍 的 限制 内 。 组 织 的 每 个 区 域 都 可 能 有 其 各 自 的 仪表 盘 来 
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决定 这 部 分 工作 的 健康 度 。 例 如 图 9-22 是 一 个 简单 的 财政 指标 和 收入 的 仪表 盘 。 左 边 的 面 
板 显 示 了 最 近 3 年 的 收入 刻度 ， 用 指针 表示 指标 落 在 范围 内 的 哪个 位 置 。 其 他 仪表 盘 显 示 了 
更 详细 的 数据 来 帮助 管理 者 找 出 不 能 容忍 的 指标 的 来 源 。 
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图 9-22 ”仪表 盘 示 例 


每 一 个 面板 都 是 数据 集 市 或 数据 仓库 中 一 系列 复制 查询 的 结果 。 当 用 户 想 看 到 更 详细 的 
数据 时 ， 可 点 击 图 片 获 取 一 个 菜单 选项 ， 探 究 这 个 图 标 或 图 像 后 面 的 详细 信息 。 面 板 可 能 是 
对 数据 仓库 中 的 数据 运行 某 些 预测 模型 后 的 结果 ， 用 于 预测 将 来 的 状态 〈 所 谓 的 预测 建 模 )。 

综合 仪表 盘 显 示 只 有 当 数 据 在 每 个 显示 中 是 一 致 的 才 可 能 ， 这 需要 数据 仓库 和 相关 数据 
集 市 的 支持 。 独 立 数据 集 市 的 独立 仪表 盘 是 可 开发 的 ,但 是 在 解决 跨 区 域 问 题 时 有 困难 ( 例 
如 比 预 测 高 的 销量 导致 了 生产 瓶颈 )。 


9.7.6 ”数据 挖掘 工具 


用 户 在 用 OLAP 查找 这 样 问 题 的 答案 :“ 健 康 保障 对 单身 或 已 婚 的 人 来 说 开销 在 增 大 
吗 ?” 使 用 数据 挖掘 ， 用 户 在 事实 或 观察 结果 的 集合 中 寻找 模式 或 趋势 。 数 据 挖掘 是 使 用 传 
统 策略 、 人 工 智能 和 计算 机 图 形 学 等 复杂 混合 技术 来 进行 知识 发 现 (Weldon，1996 ) 。 

数据 挖掘 的 目标 有 以 下 3 方面 : 

1 ) 解释 为 了 解释 某 些 观察 到 的 事件 或 者 情况 ， 例 如 为 什么 科罗拉多 州 的 拉 货 卡车 销 
量 增 加 了 。 
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2 ) 验证 ”为 了 确认 假设 ， 例 如 是 否 双 收入 家 庭 比 单 收 入 家 庭 更 倾 问 于 购买 家 庭 医 疗 保险 。 

3 ) 探索 为 了 分 析 新 的 或 者 没有 预想 到 的 数据 联系 ， 例 如 哪 一 种 消费 方式 更 容易 引起 
信用 卡 诈骗 。 

1. 数据 挖掘 技术 

数据 挖掘 使 用 很 多 不 同 的 技术 ， 表 9-4 是 对 这 些 技术 中 最 常用 技术 的 总 结 。 选 择 合适 的 
技术 取决 于 需要 被 分 析 的 数据 的 性 质 和 数据 集 的 大 小 。 数 据 挖掘 既 可 以 在 数据 集 市 上 进行 ， 
也 可 以 在 企业 数据 仓库 上 进行 。 

表 9-4 ”数据 挖掘 技术 

技术 功能 
回归 从 真实 世界 的 案例 中 推导 出 规则 
决策 树 归纳 在 大 数据 集中 寻找 模式 和 相关 性 
聚 类 和 信号 处 理 无 损 压缩 大 数据 库 
近似 基于 模仿 人 脑 的 原则 来 开发 预测 模型 
序列 关联 。 | 发 现 事件 和 行为 的 周期 ”| | 

2. 数据 挖掘 应 用 

数据 挖掘 技术 已 经 成 功 地 在 真实 世界 的 应 用 中 被 广泛 使 用 。 表 9-5 中 总 结 了 一 些 典型 的 
应 用 类 型 与 它们 的 例子 。 由 于 以 下 原因 ， 数 据 挖掘 应 用 增长 迅速 : 

e。 数据 集 市 和 数据 仓库 中 的 数据 总 量 正在 指数 级 增长 。 用 户 需 要 数据 挖掘 工具 提供 的 自 

动 技术 来 挖掘 这 些 数据 中 的 知识 。 

e。 有 着 扩展 能 力 的 新 数据 挖掘 工具 正在 持续 地 出 现 。 

。 增长 的 竞争 压力 迫使 公司 更 有 效 地 使 用 他 们 数据 中 蕴含 的 知识 和 信息 。 

从 数据 仓库 的 角度 体现 数据 挖掘 的 全 面 覆 盖 和 商务 智能 的 全 部 分 析 方 面 ， 参 见 Turban 
等 ( 2008 )。 


表 9-5 ”典型 的 数据 挖掘 应 用 


数据 挖掘 应 用 例子 

人 群 分 析 建立 高 价值 客户 、 信 用 风险 和 信用 卡 欺 诈 的 资料 

商业 趋势 分 析 找 出 高 于 (或 低 于 ) 平均 增长 的 市 场 

目标 营销 为 客户 或 客户 群 提供 合适 的 促销 活动 

使 用 分 析 对 产品 和 服务 的 使 用 模式 进行 标识 

活动 效果 比较 活动 策略 的 有 效 性 

产品 亲和力 标识 同时 被 购买 的 产品 或 标识 某 个 产品 组 的 购买 者 特征 

客户 保留 和 流失 检查 前 往 竞争 对 手 处 的 客户 的 行为 来 避免 客户 流失 

僵 利 能 力 分 析 找 出 哪些 客户 是 有 利 可 图 的 ， 给 出 这 些 客 户 与 组 织 的 全 部 活动 集 
客户 价值 分 析 找 出 哪个 年 龄 段 的 客户 是 有 价值 的 

追加 销售 基于 关键 事件 和 生活 模式 改变 来 找 出 新 的 销售 给 客户 的 产品 或 服务 


来 源 : Dyché ( 2000 ) 


9.8 数据 治理 与 数据 质量 


数据 的 治理 和 质量 对 数据 管理 的 各 个 领域 都 是 极为 重要 的 ， 尤 其 对 数据 仓库 的 管理 和 组 
织 更 是 如 此 。 因 此 ， 下 面 给 出 关于 组 织 中 数据 治理 和 数据 质量 管理 的 简要 介绍 来 结束 本 章 。 
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9.8.1 数据 治理 


数据 治理 ( data governance) 是 一 系列 处 理 和 程序 的 集合 ， 旨 在 着 眼 于 高 水 平和 目标 ( 例 
如 可 用 性 、 可 信和 度 和 符合 规定 ) 来 管理 组 织 内 的 数据 。 数 据 治理 通过 测量 安全 风险 来 监督 数 
据 访 问 政策 (Leon，2007 )。 数 据 治理 提供 了 一 种 处 理 数据 问题 的 授权 。 根 据 TDWI ( The 
Data Warehousing Institute) 2005 (Russom，2006 ) 的 一 篇 调查 显示 ， 只 有 25%~28% 的 受 调 
查 组 织 有 数据 治理 的 功能 。 当 然 ， 广泛 的 数据 治理 程序 仍 在 不 断 涌现 。 数 据 治理 是 一 种 需要 
被 IT 和 商业 共同 拥有 的 功能 。. 成 功 的 数据 治理 需要 公司 上 层 管理 的 支持 。 在 组 织 中 ， 使 数 
据 治 理 成 功 的 一 个 关键 角色 是 数据 管家 。 

2002 年 的 Sarbanes-Oxley 法 案 使 得 组 织 迫 切 需 要 采取 行动 来 保证 数据 精确 、 及 时 和 一 
致 (Laurent，2005 )。 虽 然 没 有 经 过 法 规 的 授权 ， 很 多 组 织 需 要 CIO 像 CEO 和 CFO 一样， 
在 财务 报表 上 签字 ， 这 是 因为 认识 到 了 IT 在 保证 数据 质量 上 的 作用 。 成 立 一 个 由 每 个 具有 
作出 商业 政策 决定 权威 的 主要 商业 单位 派 代 表 所 组 成 的 商业 信息 咨询 委员 会 会 有 利于 高 数 
据 质量 的 树立 (Carlson，2002 ; Moriarty，1996 )。 委 员 会 中 的 成 员 相 当 于 IT 和 他 们 自己 的 
商业 单位 之 间 的 联络 员 ， 不 仅 要 考虑 自己 功能 单元 的 数据 需求 ， 还 要 考虑 企业 范围 的 数据 需 
求 。 这 些 成 员 是 他 们 各 自 管 理 的 数据 上 的 主题 专家 ， 因 此 需要 对 以 下 几 方 面 有 强烈 的 兴趣 信 
息 作 为 企业 资源 那样 管理 、 对 组 织 的 业务 有 着 深入 理解 以 及 恨 好 的 交涉 技巧 。 这 样 的 成 员 
(通常 是 高 层 管理 者 ) 有 时 被 称 为 数据 管家 ， 即 有 责任 保证 组 织 型 应 用 能 正确 支持 组 织 的 企 
业 目 标的 人 。 

数据 治理 程序 需要 包含 下 列 要 素 : 

e 来 自 高 级 管理 人 员 和 商业 单位 的 支持 。 

e 一 个 数据 管家 经 理 来 支持 、 训 练 、 协 调 数据 管家 们 。 

e 不 同 商 业 单位 、 数 据 主 题 、 资 源 系 统 和 这 些 元 素 之 间 联 系 的 数据 管家 。 

e 治理 委员 会 ， 以 一 人 牵头 ， 由 数据 管家 经 理 、 总 经 理 和 高 级 副 总 裁 、IT 领导 (如 数据 
管理 员 ) 以 及 其 他 商业 领导 所 组 成 ， 可 以 设置 策略 目标 、 协 调 活 动 、 为 全 部 企业 数据 
管理 活动 提供 指导 和 标准 。 

数据 治理 的 目标 是 对 于 组 织 内 部 和 外 部 的 监管 透明 以 及 提高 组 织 拥有 的 数据 的 价值 。 数 

据 治理 委员 会 衡量 数据 质量 和 可 用 性 ， 决 定 质量 和 可 用 性 的 目标 ， 指 导 克 服 与 坏 数 据 或 不 安 
全 数据 相关 联 的 风险 ， 复 审 数据 审核 过 程 的 结果 。 数 据 治理 最 好 由 组 织 的 最 高 层 领导 来 包办 。 


9.8.2 ”管理 数据 质量 


高 质量 数据 的 重要 性 绝 不 言 过 其 实 。 根 据 Brauer ( 2002 ): 

重要 的 商业 决策 和 资源 分 配 是 基于 数据 所 决定 的 。 价 格 的 变化 、 促 销 活 动 的 发 生 、 与 客 
户 的 交流 以 及 每 天 的 操作 都 是 围绕 组 织 中 各 系统 的 数据 来 发 展 的 。 作 为 这 些 系统 基础 的 数据 
必须 是 好 数据 。 否 则 还 没 开 始 就 已 经 失败 了 。 无 论 屏 幕 有 多 么 漂亮 、 界 面 有 多 人 么 直观 、 效 果 
有 怎样 高 的 提升 、 程 序 有 多 么 自动 化 、 方 法 有 多 么 创新 、 对 系统 的 访问 有 多 么 深远 ,这些 在 
数据 是 坏 数据 时 都 不 重要 一 一 因为 系统 会 失败 。 如 果 系 统 失败 了 ， 或 者 至 少 是 提供 了 不 精确 
的 信息 ， 那 么 每 一 个 处 理 、 决 定 、 资 源 分 配 、 交 流 以 及 与 系统 的 交互 都 会 有 损害 ,或 者 会 对 
商业 本 身 有 惨重 的 影响 。 
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以 上 的 引用 实际 上 是 对 一 条 古老 的 IT 谚 语 的 重 述 :“ 输 入 是 垃圾 ， 输 出 也 是 垃 专 
(GIGO)”,， 并 且 进 一 步 强调 了 当今 环境 下 显著 的 高 风险 。 
高 质量 数据 一 一 数据 是 精确 的 、 一 致 的 和 及 时 可 用 的 一 一 如 今 对 组 织 的 管理 是 非常 必要 
的 。 组 织 必须 努力 保证 与 他 们 用 来 决策 开发 商业 政策 和 实践 相关 的 数据 是 精确 和 完整 的 ， 并 
是 促进 企业 范围 的 数据 共享 。 管理 数 据 质 量 是 整个 企业 的 责任 ,而 数据 管理 常 在 规划 和 协调 
这 些 努 力 中 扮演 一 个 领导 者 的 角色 。 
你 的 数据 质量 ROI 是 什么 ”这 个 ROI 并 不 代表 return on investment (投资 回报 率 )， 而 
是 risk of incarceration (禁闭 风险 )。 根 据 Yugay 和 Klimchenko (2004 ):“ 在 IT 中 实现 SOX 
( Sarbanes-Oxley) 承诺 的 关键 在 于 建立 有 效 的 报告 机 制 ， 提 供 必 要 的 数据 集成 和 管理 系统 ， 
保证 数据 质量 和 及 时 传输 所 需要 的 信息 。” 差 的 数据 质量 会 使 总 经 理 人 狱 。 具 体 来 说 ，SOX 
需要 组 织 衡量 和 改进 元 数据 的 质量 ; 保证 数据 安全 ; 衡量 和 改进 数据 可 访问 性 和 易 用 性 ; 衔 
量 和 改进 数据 可 用 性 、 及 时 性 和 关联 性 ; 衡量 和 改进 一 般 账 务 数 据 的 准确 性 、 完 整 性 和 易 读 
性 ; 标识 和 消除 数据 重复 和 不 一 致 性 。 根 据 Informatica ( 2005 )， 数 据 质量 和 集成 的 一 个 领 
先 技术 提供 者 表示 ， 数 据 质量 在 以 下 方面 很 重要 : 
e 减少 IT 工程 的 风险 ”及 数据 会 导致 信息 系统 工程 的 延 时 和 额外 工作 ， 尤 其 是 那些 与 
现 有 系统 的 重用 数据 相关 的 工程 。 
e 及 时 做 出 商业 决策 。 当 管 理 者 没有 高 质量 数据 或 对 他 们 的 数据 缺少 信心 时 ， 迅速 做 出 
商业 决策 的 能 力 就 会 被 妥协 。 
e 确保 监管 承诺 ”数据 质量 不 只 对 SOX 和 BaseII (欧洲 ) 承诺 是 必要 的 ， 而 且 也 能 帮助 
组 织 进 行 公平 、 智 能 和 反 其 诈 的 活动 。 
e 扩大 客户 基础 能 够 精确 拼 出 一 名 客户 的 姓名 或 者 知道 他 各 方面 的 活动 ， 这 会 帮助 组 织 
进行 追加 销售 和 交叉 销售 新 的 业务 。 


9.8.3 数据 质量 的 特征 


那么 ， 什 么 样 的 数据 是 有 质量 的 呢 ? Redman ( 2004 ) 将 数据 质量 总 结 为 :“ 对 于 它们 在 
操作 、 决 策 和 计划 上 的 使 用 是 合适 的 。” 换 名 话说， 这 意味 着 这 样 的 数据 没有 缺陷 且 有 着 理想 
的 特性 (相关 、 人 全面、 有 着 适当 的 精细 程度 、 易 读 和 易于 理解 )。Loshin ( 2006 ) 和 Russom 
( 2006 ) 进一步 描述 了 有 质量 数据 的 特征 : 

e 唯一 性 ”唯一 性 指 的 是 在 数据 库 中 每 个 实体 只 存在 不 超过 一 次 ， 并 且 有 键 可 以 唯一 地 
访问 到 每 个 实体 。 这 个 特征 需要 身份 匹配 (寻找 有 着 相同 实体 的 数据 ) 和 定位 及 消除 
元 余 实体 的 措施 。 
准确 性 ”准确 性 与 表示 真实 生活 中 物品 的 正确 基准 有 关 。 准 确 性 一 般 由 一 些 被 认可 的 
权威 数据 资源 (如 一 个 资源 系统 或 一 些 外 部 数据 提供 者 ) 所 衡量 。 数 据 必 须 准 确 和 足 
够 精确 。 例 如 ， 准 确 地 知道 销售 额 非常 重要 ,但 是 在 很 多 应 用 中 ， 只 需要 知道 每 个 产 
品 的 以 千 元 为 单位 的 每 月 销售 额 就 足够 了 。 数 据 也 可 以 是 有 效 的 (如 在 一 个 特定 的 值 
域内 ) 但 不 是 准确 的 。 

e 一 致 性 一 致 性 指 的 是 在 一 个 数据 集 (数据 库 ) 中 ， 数 据 的 值 与 男 一 个 数据 集 (数据 
库 ) 中 的 相关 数据 的 值 是 相 一 致 的 。 一 致 性 可 以 体现 在 一 个 表 的 行 中 (例如 产品 的 重 
量 应 该 是 与 它 的 大 小 和 材料 相关 联 的 )， 或 在 表 的 各 行 之 间 (如 两 个 有 着 相似 特征 的 
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产品 应 该 有 着 相同 的 价格 ,或 者 被 认为 是 元 余 的 数据 应 该 有 着 相同 的 值 )， 或 在 关于 

时 间 的 相同 属性 上 (如 连续 两 个 月 的 产品 价格 应 该 是 一 样 的 ， 除 非 有 价格 改变 发 生 )， 

或 在 可 容忍 的 范围 内 (如 从 订单 计算 得 到 的 总 销量 和 订单 的 总 收费 应 该 大 臻 相同 )。 

一 致 性 也 和 继承 自 超 类 型 和 子 类 型 的 属性 有 关 。 例 如 ， 一 个 子 类 型 实例 需要 存在 与 其 
对 应 的 超 类 型 ， 执 行 重生 或 者 不 相交 的 子 类 型 规则 。 
e 完整 性 完整 性 指 的 是 需要 被 赋值 的 数据 都 被 分 配 了 值 。 这 个 特征 不 仅 包括 了 SQL 
的 不 为 空 ( NOT NULL) 和 外 键 约束 ， 还 可 能 有 一 些 更 复杂 的 规则 (如 男性 员工 不 需 
要 一 个 婚前 姓氏 ， 而 女性 可 能 需要 )。 完 整 性 同样 意味 着 所 需 的 全 部 数据 当前 都 有 效 
(如 果 想 知道 总 销售 额 ， 可 能 需要 知道 总 销售 量 和 单价 ; 如 果 一 条 员工 记录 显示 某 员 
工 已 经 退休 ， 则 需要 一 个 退休 日 期 的 记录 )。 有 有 时， 完整 性 需要 被 优先 考虑 。 例 如 ， 
如 果 一 个 员工 在 员工 表 中 却 不 在 求职 表 中 ， 这 可 能 会 标志 着 一 个 数据 质量 问题 。 
及 时 性 ”及 时 性 指 的 是 从 数据 被 需要 到 数据 可 用 这 段 时 间 可 以 符合 预期 。 当 组 织 尝 试 
减少 从 商业 活动 发 生 到 组 织 对 该 活动 采取 行动 的 延迟 时 间 ， 及 时 性 就 变 成 了 一 个 更 重 
要 的 数据 质量 特征 (如 果 不 知道 及 时 采取 行动 ， 那 么 就 没有 有 质量 的 数据 )。 及 时 性 的 
一 个 相关 方面 是 保存 期 ， 即 数据 表示 真实 世界 的 时 间 跨 度 。 有 些 数 据 需 要 被 加 上 时 间 
戳 来 标志 它们 应 用 的 时 间 段 ， 丢 失 了 起 始 或 者 结束 时 间 可 能 导致 一 个 数据 质量 问题 。 
流通 性 ”流通 性 指 的 是 当前 数据 可 用 的 程度 。 例 如 ， 可 能 需要 保持 客户 电话 号 码 的 更 
新 以 便 可 以 随时 呼叫 他 们 ， 但 是 员工 的 号 码 可 能 不 需要 实时 更 新 。 数 据 间 不 同 程度 的 
流通 性 可 能 导致 一 个 数据 质量 问题 (如 不 同 员工 的 工资 有 着 许多 不 同 的 更 新 日 期 )。 
连贯 性 ”连贯 性 指 的 是 数据 存储 、 交 换 和 表现 的 格式 都 是 由 它们 的 元 数据 所 指定 的 。 
元 数据 包括 域 完 整 性 规则 (从 一 个 有 效 集合 或 值 域 中 得 到 的 属性 值 ) 和 具体 格式 ( 特 
殊 字 符 的 具体 位 置 、 文 本 的 精确 混合 、 数 字 和 特殊 符号 )。 
参照 完整 性 ”人 参照 完整 性 是 指 代表 其 他 数据 的 数据 需要 是 唯一 的 且 满 足 需求 的 (如 满 
足 全 部 的 强制 性 或 选择 性 基数 )。 

这 些 就 是 高 级 的 标准 。 数 据 质 量 需 要 的 不 仅仅 是 消除 缺陷 ， 而 且 还 需要 保护 和 报告 。 
为 数据 是 频繁 更 新 的 ， 所 以 获取 质量 数据 需要 持续 地 监控 、 度 量 和 改进 。 同 样 ， 在 某 些 情形 
下 ， 数 据 质量 并 不 需要 那么 完美 ,“ 恰 好 足够 的 质量 ”可 能 是 权衡 代价 和 回报 后 最 好 的 商业 
决定 。 
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如 今 ， 尽 管 各 种 组 织 收集 了 庞大 数量 的 数据 ， 但 大 部 分 管理 者 很 难 从 中 获得 他 们 需要 的 
决策 信息 。 这 个 “信息 差距 ”主要 由 两 方面 所 导致 。 首 先 ， 通 常 使 用 的 零碎 的 系统 开发 方法 
导致 了 数据 的 异 质 和 不 一 致 。 其 次 ， 系 统 主要 用 于 满足 操作 型 目标 而 开发 ， 很 少 考虑 到 管理 
者 的 信息 需求 。 

操作 型 系统 和 信息 型 系统 以 及 它们 各 上 自 的 数据 间 有 着 很 多 差别 。 操 作 型 系统 一 般 用 于 运 
行 一 些 基于 当前 的 业务 ， 主 要 设计 目标 是 为 处 理事 务 和 更 新 数据 库 的 用 户 提供 高 效 的 服务 。 
信息 型 系统 用 于 支持 管理 者 决策 ， 主 要 设计 目标 是 为 信息 工作 者 提供 容易 的 访问 和 使 用 方法 。 

数据 仓库 的 目标 是 巩固 和 集成 来 自 许多 资源 的 数据 ， 并 将 这 些 数 据 格式 化 用 于 精确 的 商 
业 决 策 。 数 据 仓库 是 面向 主题 数据 的 一 个 集成 和 一 致 存储 ， 这 些 数 据 是 从 很 多 资源 中 获取 
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的 ， 并 格式 化 成 为 有 意义 的 上 下 文 来 支持 组 织 的 决策 。 

现在 大 部 分 的 数据 仓库 使 用 3 层 体系 结构 。 第 一 层 由 来 自 各 个 操作 型 系统 中 的 分 布 式 数 
据 组 成 。 第 二 层 是 企业 数据 仓库 ， 是 一 个 中 心 的 、 集 成 的 数据 仓库 ， 作 为 全 部 数据 的 控制 点 
和 唯一 资源 用 于 终端 用 户 的 决策 支持 应 用 。 第 三 层 是 一 系列 数据 集 市 。 数 据 集 市 是 针对 特定 
用 户 群 的 决策 需求 而 在 数据 规模 上 受到 限制 的 数据 仓库 。 数 据 集 市 可 以 独立 于 企业 数据 仓库 
(EDW), 或 者 由 EDW 派生 ， 或 者 是 一 个 EDW 的 逻辑 子 集 。 

企业 数据 仓库 的 数据 层 被 称 为 调和 数据 层 。 这 一 层 的 特征 〈 理 想 情 况 下 ) 有 : 详细 的 、 
历史 的 、 规 范 化 的 、 完 整 的 和 质量 可 控 的 。 调 和 层 数 据 是 对 企业 数据 仓库 或 操作 型 系统 的 操 
作 型 数据 存储 填充 数据 得 到 。 调 和 数据 需要 4 个 步骤 : 从 资源 系统 获得 数据 、 清 洗 数据 (以 
消除 不 一 致 性 )、 转 化 数据 (将 其 转换 成 数据 仓库 所 需 的 格式 ) 和 在 数据 仓库 中 加 载 和 索引 数 
据 。 一 般 调 和 数据 不 会 被 终端 用 户 直接 访问 。 

数据 集 市 中 的 数据 层 是 派生 数据 层 。 这 些 数据 被 终端 用 户 访问 并 用 于 其 决策 支持 应 用 。 

数据 集 市 中 一 般 使 用 星 模式 (或 叫 维 模 型 ) 这 种 关系 模型 的 变种 来 存储 数据 。 星 模式 是 
一 种 简单 的 数据 库 设 计 ， 其 中 维 数据 和 事实 数据 或 事件 数据 互相 分 开 。 星 模式 中 包括 两 种 
表 : 维 表 和 事实 表 。 事 实 表 的 大 小 部 分 取决 于 该 表 的 粒度 (精细 水 平 )。 如 今 一 般 数 据 仓库 
应 用 的 事实 表 有 着 超过 10 亿 行 的 规模 。 星 模式 有 很 多 变形 模式 ， 包 括 雪花 模式 等 ， 雪 花 模 
式 用 于 一 维 或 多 个 维 有 层次 结构 的 情形 。 新 兴 的 列 式 数据 库 技 术 为 数据 仓库 和 数据 集 市 中 数 
据 的 存储 和 访问 提供 了 新 的 选项 。 

许多 终端 用 户 接口 可 以 用 来 访问 和 分 析 决 策 支 持 数据 。 联 机 分 析 处 理 (OLAP) 使 用 一 
系列 图 形 工 具 来 为 用 户 提供 数据 的 多 维 视图 (常常 是 立方 体 视 图 )。 不 断 增 长 的 数据 可 视 化 
工具 让 多 维 数据 更 容易 被 理解 。OLAP 提供 了 有 助 于 分 析 数 据 的 操作 ， 例 如 切片 和 切 块 、 数 
据 旋转 和 下 钻 。 仪 表盘 和 商业 性 能 监控 提供 了 高 级 视图 来 辅助 管理 者 确定 哪些 地 方 需要 下 外 
或 旋转 数据 。 数 据 挖掘 是 使 用 传统 策略 、 人 工 智 能 和 计算 机 图 形 学 等 复杂 混合 技术 来 进行 知 
识 发 现 的 技术 。 


关键 术语 


Big data (大 数据 ) 

Conformed dimension (一 致 维 ) 

Data governance (数据 治理 ) 

Data mart (数据 集 市 ) 

Data mining (数据 挖掘 ) 

Data steward (数据 管家 ) 

Data visualization (数据 可 视 化 ) 
Data warehouse (数据 仓库 ) 
Dependent data mart (相关 数据 集 市 ) 
Derived data (派生 数据 ) 

Enterprise data warehouse (EDW ， 企 业 数 据 仓 库 ) 
Grain (粒度 ) 


Independent data mart (独立 数据 集 市 ) 

Informational system (信息 系统 ) 

Logical data mart (逻辑 数据 集 市 ) 

Mnultidimensional OLAP (MOLAP， 多 维 OLAP) 

Online analytical processing (OLAP， 联 机 分 析 
处 理 ) 

Operational data store (ODS， 操 作 型 数据 存储 ) 

Operational system (操作 型 系统 ) 

Periodic data (定期 数据 ) 

Real-time data warehouse (实时 数据 仓库 ) 

Reconciled data (调和 数据 ) 

Relational OLAP (ROLAP， 关 系 OLAP) 
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Snowflake schema (雪花 模式 ) Transient data (临时 数据 ) 
Star schema ( 星 模 式 ) 














复习 题 
1. 定义 下 列 术 语 
a. 数据 仓库 b. 数据 集 市 c. 调和 数据 d. 派生 数据 
e. 联机 分 析 处 理 f 大 数据 g. 是 模式 h. 雪花 模式 
i. 粒度 j. 一 致 维 
2. 将 下 列 术 语 与 合适 的 定义 相 匹 配 
定期 数据 a. 失去 了 以 前 的 数据 内 容 
数据 集 市 b. 详细 的 历史 数据 
星 模 式 c. 不 会 被 改变 和 删除 的 数据 
数据 挖掘 d. 有 着 受 限 规模 的 数据 仓库 
调和 数据 e. 维和 事实 表 
相关 数据 集 市 f. 知识 发 现 的 形式 
数据 可 视 化 g. 从 数据 仓库 中 填充 的 数据 
临时 数据 h. 维 分 层 的 结构 
雪花 模式 i. 用 图 表 的 形式 表现 数据 
3. 比较 下 列 术语 : 


a. 临时 数据 ; 定期 数据 b. 数据 仓库 ; 数据 集 市 ; 操作 型 数据 存储 
c. 调和 数据 ; 派生 数据 d. 事实 表 ; 维 表 
e. 星 模式 ; 雪花 模式 f 独立 数据 集 市 ; 相关 数据 集 市 ; 逻辑 数据 集 市 
g. SQL; NoSQL 

4. 列 出 现今 许多 组 织 需要 数据 仓库 的 5 个 主要 趋势 。 

5. 简要 描述 数据 仓库 体系 结构 中 的 主要 组 成 部 分 。 

6. 列 出 3 种 在 数据 仓库 三 层 体系 结构 中 出 现 的 元 数据 ， 并 简要 描述 其 各 自 的 目的 。 

7. 列 出 数据 仓库 的 4 个 特征 。 

8. 列 出 独立 数据 集 市 的 $ 个 局 限 性 。 

9. 列 出 独立 数据 集 市 的 两 个 优点 。 

10. 简要 描述 3 种 可 以 被 OLAP 工具 轻易 实现 的 操作 类 型 。 

11. 列 出 派生 数据 的 4 个 目标 。 

12. 星 模 式 是 一 种 关系 数据 模型 吗 ? 为 什么 ? 

13. 解释 数据 仓库 和 操作 型 信息 系统 数据 库 在 波动 性 上 有 何不 同 。 

14. 解释 逻辑 数据 集 市 的 优 和 缺点 。 

15. 什么 是 帮助 表 ? 为 什么 能 用 于 帮助 派生 数据 的 组 织 ? 

16. 描述 数据 仓库 或 数据 集 市 中 使 用 的 代理 键 的 特征 。 

17. 为 什么 时 间 总 是 数据 集 市 或 数据 仓库 中 的 一 个 维 ? 

18. 在 相同 数据 仓库 环境 下 ， 不同 的 星 模式 使 用 一 致 维 的 目的 是 什么 ? 

19. NoSQL 技术 扩展 了 SQL 怎样 的 能 力 ? 

20. 在 什么 情况 下 ， 维 表 和 常常 不 规范 化 ? 

21. 什么 是 维 表 的 层次 ? 

22.“ 缓 变 维 ”的 意义 是 什么 ? 

23. 解释 用 于 处 理 缓 变 维 的 最 常用 方法 。 
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24. 数据 仓库 的 一 个 特征 是 不 可 更 新 ， 这 是 什么 意思 ? 


2 


企业 数据 仓库 和 数据 存储 区 在 哪些 方面 不 同 ? 


问题 与 练习 


lL: 


回顾 图 9-1 中 的 3 个 学 生 数 据 表 。 设 计 一 个 表 来 放 入 这 三 个 表 中 的 全 部 数据 (没有 宛 余 )。 为 这 些 
数据 选择 你 认为 最 合适 的 列 名 。 


. 右 表 展示 了 2010 年 6 月 20 日 的 一 些 简 单 的 学 生 数据 。 ee 
在 2010 年 6 月 21 日 , 发生 了 以 下 事务 : Key Name Neor 
e 学 生 004 的 Major 从 Math 变 成 了 Business。 001 Amy Music 
e 学 生 005 从 文件 中 被 删除 了 。 002 Tom Business 
。 新 学 生 006 被 加 入 到 文件 中 : Name 是 Jim，Major 是 Phys Ed。 "3 Sue Art 
在 2010 年 6 月 22 日, 发生 了 以 下 事务 : Ve loe Math 
e 学 生 003 的 Major 从 Art 变 成 了 History。 2 


e 学 生 006 的 Major 从 Phys Ed 变 成 了 Basket Weaving。 

你 的 任务 有 以 下 两 部 分 : 

a, 假设 数据 是 临时 的 ， 建 立 6 月 21 日 和 6 月 22 日 的 表格 来 反映 上 述 事 务 (如 图 9-7 所 示 )。 
b. 假设 数据 是 定期 的 ， 建 立 6 月 21 日 和 6 月 22 日 的 表格 来 反映 上 述 事务 (如 图 9-8 所 示 )。 


. Millennium 学 院 想 让 你 帮忙 设计 一 个 星 模 式 ， 用 于 记录 学 生 们 的 课程 成 绩 。 一 共有 4 个 维 表 ， 属 


性 如 下 : 


属性 : CourseID 、SectionNumber、CourseName 、Units 、RoomID 和 RoomCapacity。 一 个 
学 期 内 ， 平 均 有 500 节 课 
属性 : ProfID 、ProfName 、Title 、DepartmentID 和 DepartmentName。 给 定时 间 内 ， 学 校 


CourseSection 


Professor 


有 200 个 教授 
属性 : StudentID 、StudentName 和 Major。 平 均 每 节 课 有 40 个 学 生 ， 每 个 学 生 每 学 期 平 
Student Sa 
均 上 5 门 课 
Period 属性 : SemesterID 和 Year。 数 据 库 中 要 存 有 30 个 学 期 的 数据 (总共 10 年 ) 


事实 表 中 唯一 记录 的 事实 是 CourseGrade。 

a. 为 这 个 问题 设计 一 个 星 模式 。 按 照 图 9-10 的 格式 。 

b. 使 用 之 前 的 假设 估算 事实 表 的 行 数 。 

c. 估算 事实 表 的 大 小 (用 字 节 表示 )， 假 设 每 个 字段 平均 5 字 节 。 

d. 如 果 不 想 或 不 需要 为 这 个 数据 集 市 设计 一 个 严格 的 星 模式 ， 你 会 怎样 改变 这 个 设计 ? 为 什么 ? 

e. 课程 、 教 授 、 学 生 的 许多 特征 随 着 时 间 而 改变 。 你 在 设计 星 模 式 时 怎样 允许 这 些 变化 产生 ? 为 
什么 ? 


. 根据 第 4 章 关 于 非 规范 化 的 原则 ， 你 发 现 问 题 与 练习 3 中 建立 的 星 模式 不 属于 第 三 范式 。 使 用 这 些 


原则 ， 将 星 模式 转换 为 雪花 模式 。 这 个 问题 对 于 事实 表 的 大 小 有 怎样 的 影响 ? 


. 你 要 为 Simplified Automobile Insurance Company 建立 一 个 星 模式 (Kimball ( 1996b) 给 出 了 一 个 


更 实际 的 例子 )。 相 关 的 维 、 维 属性 和 维 大 小 如 下 : 


InsuredParty 属性 : InsuredPartyID 和 Name。 平均 每 个 保险 单 和 覆盖 项 目 有 两 个 投保 人 
Coverageltem 属性 : CoverageKey 和 Description。 平 均 每 个 保险 单 有 10 个 覆盖 项 目 
Agent 属性 : AgentID 和 AgentName。 每 个 保险 单 和 覆盖 项 目 有 一 个 代理 人 
Policy 属性 : PolicyID 和 Type。 公 司 目前 大 概 有 100 万 的 保险 单 


Period 属性 : DateKey 和 FiscalPeriod 
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对 于 这 些 维 的 每 个 组 合 需要 记录 的 事实 有 PolicyPremium 、Deductible 和 NumberOf Transactions。 

a. 为 这 个 问题 设计 一 个 星 模式 。 按 照 图 9-10 的 格式 。 

b. 估算 事实 表 的 行 数 ， 使 用 之 前 的 假设 。 

c. 估算 事实 表 的 大 小 〈 用 字 节 表示 )， 假 设 每 个 字段 平均 $ 字 节 。 

第 5 题 中 ， 该 公司 想 要 增加 一 个 Claims 维 到 星 模式 中 ， 属 性 有 ClaimID 、ClaimDescription 和 
ClaimType。 现 在 事实 表 的 属性 是 PolicyPremium 、Deductible 和 MonthlyClaimTotal。 

a. 扩展 第 5 题 中 的 星 模式 来 包括 这 些 新 数据 。 

b. 估算 事实 表 中 的 行 数 ， 假 设 这 个 公司 平均 每 个 月 收 到 2000 条 投诉 。 


.问题 与 练习 3 中 Millennium 学 院 现在 想 加 入 新 的 关于 课程 的 数据 :提供 课程 的 系 、 系 报告 的 学 术 


单位 、 分 配给 系 的 预算 单位 。 修 改 问 题 与 练习 3 的 答案 来 适应 这 些 新 的 数据 需求 。 解 释 在 星 模式 中 
做 出 改变 的 地 方 。 


. 本章 中 提 到 ，Kimball ( 1997 )、Inmon ( 1997，2000 ) 和 Armstrong ( 2000 ) 曾经 争论 过 独立 和 相 


关 数 据 集 市 、 规 范 化 和 去 规范 化 数据 集 市 各 目的 优点 。 从 图 书馆 或 者 在 线 资源 中 获取 这 些 文章 ,上 总 

结 出 其 中 某 一 方 的 论点 。 

一 家 食品 加 工厂 需要 一 个 数据 集 市 来 总 结 运 货 订单 。 有 些 订单 是 在 内 部 运输 ， 有 些 是 卖 给 顾客 ， 有 

些 是 从 销售 商 处 采购 ， 有 些 是 顾客 的 退货 。 需 要 将 顾客 、 销 售 商 、 工 三 和 存储 地 点 作为 不 同 的 维 

来 和 运输 事件 关联 起 来 。 对 于 每 一 种 类 型 的 目的 地 或 产地 ， 公 司 想 知道 位 置 类 型 (如 顾客 、 销 售 商 

等 )、 名 字 、 城 市 和 州 。 每 次 运输 的 事实 包括 运输 的 总 价值 、 成 本 和 收益 (如果 有 的 话 ， 产 品 退 货 

是 负 收 益 )。 设 计 一 个 星 模式 来 表示 这 个 数据 集 市 。 提 示 : 在 设计 了 一 个 传统 类 型 的 星 模式 之 后 ， 

考虑 一 下 如 何 用 概括 来 简化 设计 。 

， 访问 www.kimballgroup.com， 找 到 Kimball University Design Tip 37。 研 究 这 个 设计 提示 并 为 学 校 
招生 的 “管道 ”应 用 设计 维 模型 。 

.访问 www.teradatauniversitynetwork.com， 并 在 软件 下 载 页 面 中 下 载 维 建 模 工具 (你 的 导师 应 当 给 
你 这 个 站 点 的 当前 访问 密码 )。 使 用 这 个 工具 画 出 第 3、5、6 和 9 题 的 结果 。 写 一 个 关于 这 个 建 模 
工具 用 途 的 报告 。 你 想 要 这 个 工具 加 入 什么 其 他 特性 吗 ? 这 个 工具 比 起 你 使 用 过 的 其 他 数据 库 图 
表 工 具 (如 Visio、SmartDraw、ERWin 等 ) 是 好 还 是 坏 ? 为 什么 ? 


、Pine Valley 家 具 公司 想 让 你 帮忙 设计 一 个 数据 集 市 来 分 析 销 量 。 数 据 集 市 的 主题 如 下 : 
Salesperson 属性 : SalespersonID 、Years with PVFC 、S$alespersonName 和 SupervisorRating 
Product 属性 : ProductID 、Category 、Weight 和 YearReleasedToMarket 


属性 : CustomerID 、CustomerName 、CustomerSize 和 Location。 位 置 是 一 个 聚集 数据 的 层 
Customer 次 。 每 个 位 置 包括 属性 LocationID 、AverageIncome、PopulationSize 和 NumberOfRetailers。 
对 于 给 定 的 顾客 ， 在 位 置 层 次 中 有 一 个 任意 等 级 的 数字 
Period 属性 : DayID 、FullDate、WeekdayFlag 和 LastDay of MonthFlag 


这 个 数据 集 市 的 数据 来 自 一 个 企业 数据 仓库 ， 但 是 这 数据 仓库 的 数据 是 由 很 多 记录 系统 所 提 

供 的 。 唯 一 要 在 事实 表 中 记录 的 事实 是 Dollar Sales。 

a. 设计 一 个 传统 的 多 维 模式 来 表示 这 个 数据 集 市 。 

b. Customer 这 个 维 常常 会 变化 。 实 际 上 ， 顾 客 会 随 着 时 间 改 变 他 们 的 CustomerSize 和 Location。 
重新 设计 你 的 a 部 分 的 答案 来 适应 这 些 改 变 ， 从 而 使 得 DollarSales 的 历史 记录 可 以 与 销售 时 精 
确 的 顾客 特征 相 匹 配 。 

c. Product 的 一 个 特征 是 Category。 现 在 产品 分 类 进行 了 层次 划分 ， 管 理 者 希望 能 在 任何 级 别 的 类 
上 对 销量 进行 概括 。 改 变 你 的 数据 集 市 的 设计 来 适应 产品 层次 。 

第 13 一 18 题 基于 接 下 来 要 介绍 的 Fitchwood 保险 公司 案例 研究 : 
Fitchwood 保险 公司 是 一 家 主 营 年 金 产品 的 公司 ， 想 要 为 其 销售 和 营销 组 织 设 计 一 个 数据 集 
市 。 目 前 有 一 个 Novell 网 络 上 壮 留 下 来 的 OLTP 系统 ， 这 个 网 络 包括 大 概 600 个 不 同 的 平面 文 
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件 。 为 了 案例 研究 的 目的 ,假设 其 中 30 个 不 同 的 平面 文件 将 用 于 这 个 数据 集 市 。 这 些 文件 中 有 
一 些 事务 文件 是 不 断 变化 的 。OLTP 系统 在 星期 五 下 午 6 点 会 关机 备份 。 在 这 段 时 间 内 ， 文 件 会 
被 复制 到 另外 的 服务 器 上 ， 提 取 处 理 开 始 运 行 ， 将 提取 结果 通过 FTP 发 送 到 一 个 UNIX 服务 器 
上 。 在 UNIX 服务 器 上 运行 的 程序 载 入 这 些 数 据 到 Oracle 并 重 构 星 模式 。 数 据 集 市 一 开始 载 入 了 
全 部 30 个 文件 的 信息 。 之 后 每 周 这 些 提 取 结 果 只 会 包括 新 增添 的 或 者 更 新 的 数据 。 

尽管 OTLP 系统 中 包括 的 数据 很 广泛 ， 但 销售 和 营销 组 织 只 会 着 重 于 销售 数据 。 在 经 过 大 量 
的 分 析 后 ， 图 9-23 所 展示 的 ERD 是 数据 集 市 增加 过 程 中 数据 的 描述 。 

















POLICY 
























PolicyNo CUSTOMER 
AGENT Type CustomeriD 
AgentiD FaceValue CustomerName 
AgentName InitComm {Address 
DateofHire InForce (Street, City, 
Commission State, Zipcode)} 


EffectiveDate 











TERRITORY 
TerritoryID 
LastRedistrict 
{Zipcode} 






图 9-23 ”Fitchwood 保险 公司 的 ERD 


从 这 个 ERD 中 ， 可 以 获取 一 些 关系 ， 如 图 9-24 所 示 。 对 于 销售 和 营销 感 兴趣 的 是 查看 全 部 
的 关于 区 域 、 有 效 晶 期、 保单 类 型 和 面值 的 销售 数据 。 此 外 ， 数 据 集 市 应 该 能 够 提供 个 别 代理 人 
在 销售 和 佣金 收入 上 的 报表 。 人 偶尔， 销售 区 域 会 被 修改 〈( 如 邮政 编码 的 增加 或 删除 ) 。 表 Territory 
的 属性 Last Redistrict 用 于 存储 最 近 一 个 版 本 的 日 期 。 一 些 样 例 查询 和 报表 如 下 : 


Agent 
Territory 


TerritoryID|LastRedistrict 


TerritoryRegion( 这 个 值 取 自 于 邮政 编码 的 多 值 属性 ， 并 根据 美国 的 人 口 普查 数据 增加 了 一 些 新 的 字段 ) 


TerritoryID | Zipcode PopulationDensity |MedianAge 


Customer 


FK to 


Policies (InForce 属性 是 指 该 保单 没有 因为 未 支付 额外 费用 而 失效 ，InitComm 属性 代表 初始 佣金 ) 


FK to FK to 
Agent Customer 





图 9-24 ”Fitchwood 保险 公司 的 关系 


20. 


21. 


22. 
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按照 区 域 和 保单 类 型 划分 的 月 销量 
按照 区 域 和 保单 类 型 划分 的 季度 销量 
按照 代理 人 和 保单 类 型 划分 的 月 销量 
按照 代理 人 和 邮政 编码 划分 的 月 销量 
按照 月 有 效 日 期 划分 的 保单 总 面值 
按照 月 有 效 日 期 和 代理 人 划分 的 保单 总 面值 
按照 季度 有 效 日 期 划分 的 保单 总 面值 
每 个 代理 人 的 总 有 效 保 单数 
每 个 代理 人 的 总 无 效 保单 数 
由 一 个 代理 人 销售 的 全 部 保单 的 总 面值 
支付 给 一 个 代理 人 全 部 保单 的 总 初始 佣金 
按 代 理 人 划分 的 在 给 定 月 支付 的 保单 的 总 初始 佣金 
按 代理 人 和 月 份 划 分 的 总 佣金 收入 
按 区 域 和 月 份 划分 的 最 高 销量 的 代理 人 
佣金 是 按照 代理 人 的 初始 保单 销量 支付 的 。Policies 表 中 的 InitComm 字段 约束 了 初始 佣金 所 
占 面 值 的 百分比 。Commission 字段 包括 了 每 个 月 所 支付 的 百分比 ， 只 要 这 个 保单 仍然 有 效 。 每 
个 月 ， 每 个 代理 人 的 每 一 件 有 效 保 单 的 佣金 会 进行 一 次 来 和 。 


.为 这 个 案例 研究 建立 一 个 星 模式 。 你 是 怎样 处 理 时 间 维 的 ? 
.你 想 规 范 化 (雪花 ) 上 题 结果 的 星 模式 吗 ? 如 何 做 以 及 为 什么 这 人 么 做 ? 重新 设计 星 模式 来 适应 你 


所 建议 的 改变 。 


.代理 人 随 着 时 间 会 改变 负责 区 域 。 如 果 需 要 ， 重 新 设计 上 题 的 答案 来 处 理 这 个 维 数据 的 变化 。 
， 顾 客 可 能 与 其 他 顾客 有 联系 配偶、 父母、 孩子 )。 重 新 设计 上 题 的 答案 来 适应 这 些 联系 。 
.管理 可 能 想 使 用 这 个 数据 仓库 来 进行 在 线 下 销 。 例 如 一 个 销售 经 理 可 能 想 查 看 某 个 代理 人 月 度 总 


销售 报告 ， 之 后 下 钻 到 保单 类 型 来 查看 在 不 同类 型 的 保单 上 销售 是 如 何 分 布 的 。 你 为 此 推荐 使 用 
什么 工具 ? 除了 工具 的 需求 以 外 ， 有 没有 可 能 需要 额外 的 表 加 和 数据 集 市 中 ? 


. 在 Fitchwood 数据 集 市 中 ， 你 看 到 了 什么 数据 挖掘 的 机 会 吗 ? 研究 数据 挖掘 工具 并 推荐 1 一 2 个 


在 这 个 数据 集 市 上 使 用 。 

第 19 一 26 题 和 Teradata 大 学 网 络 (www.teradatauniversitynetwork.com) 上 的 销售 分 析 模 块 
数据 集 市 有 关 。 你 需要 从 讲师 处 获得 当前 的 TUN 密码 来 使 用 Teradata 大 学 网 络 。 访 问 Teradata 
大 学 网 络 的 指定 部 分 或 这 本 书 的 网 站 来 获取 文件 “SAM Assignment Instructions”， 从 而 为 下 面 的 
问题 与 练习 做 好 准备 。 


.回顾 db_samwh 数据 库 的 元 数据 文件 和 数据 库 表 的 定义 (你 可 以 使 用 SHOW TABLE 命令 来 展示 出 


表 的 DDL)。 解 释 这 个 数据 库 中 在 层次 建 模 上 使 用 的 方法 。 层 次 建 模 在 本 章 中 介绍 了 吗 ? 

回顾 db_samwh 数据 库 的 元 数据 文件 和 数据 库 表 的 定义 (你 可 以 使 用 SHOW TABLE 命令 来 展示 出 
表 的 DDL)。 解 释 哪 些 维 数据 (如 果 有 的 话 ) 是 用 于 支持 缓 变 维 的 。 如 果 其 中 有 缓 变 维 数据 ， 它 们 
是 像 本 章 的 描述 那样 维护 的 吗 ? 

回顾 db_samwh 数据 库 的 元 数据 文件 和 数据 库 表 的 定义 (你 可 以 使 用 SHOW TABLE 命令 来 展示 出 
表 的 DDL )。 维 表 在 这 个 数据 库 中 是 一 致 的 吗 ? 给 出 解释 。 

你 正在 使 用 的 数据 库 是 由 MicroStrategy (一 个 领先 的 商务 智能 软件 开发 商 ) 所 开发 的 。 
MicroStrategy 软件 在 TSN 上 同样 适用 。 大 部 分 商务 智能 工具 生成 SQL 语句 来 获取 所 需 的 数据 
以 产生 报表 和 图 表 ， 并 执行 用 户 想 要 的 模型 。 访 问 Teradata 大 学 网 络 的 Apply & Do 区 域 ， 选 择 
MicroStrategy， 再 选择 MicroStrategy Application Modules， 之 后 是 Sales Force Analysis Module。 
然后 做 出 下 列 选 择 : Shared Reports 一 Sales Performance Analysis 一 Quarterly Revenue Trend by 
Sales Region 一 2005 一 Run Report。 在 文件 菜单 中 选择 Report Details 选项 。 你 就 可 以 看 到 使 用 


长 大 


24. 


忆 当 ， 


20. 
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了 怎样 的 SQL 语句 和 一 些 用 于 产生 报告 中 图 表 的 MicroStrategy 功能 。 前 切 并 粘贴 这 段 SQL 代码 
到 SQL Assistant 并 在 其 中 运行 。( 其 间 可 能 需要 保存 这 些 代码 到 一 个 Word 文件 以 防 丢失 。) 为 你 
的 讲师 产生 一 个 文件 ， 包 括 代 码 和 SQL Assistant 的 查询 结果 。 创 建 超 出 一 个 商务 智能 包 能 力 的 分 
析 数 据 经 常 是 必要 的 。 

改变 你 在 上 题 中 获得 的 查询 ， 使 其 只 按照 季度 来 展示 U.S. 地 区 ， 并 且 不 只 是 2005 年 ， 而 是 全 部 
年 份 按 季度 排序 。 在 结果 中 使 用 标题 TOTAL 和 区 域 ID 作为 ID 来 按 季度 标记 总 订单 。 给 出 你 修 
改 后 的 SQL 代码 和 结果 集 。 

使 用 Teradata SQL 中 的 MDIFF “ordered analytical function”( 参 见 功能 与 操作 手册 )， 展 示 每 个 季 
度 之 间 TOTAL (上 题 计算 出 的 结果 ) 的 不 同 。 提 示 : 可 能 需要 创建 一 个 导出 表 ， 它 基于 之 前 的 查 
询 ， 类 似 于 功能 与 操作 手册 给 出 的 那样 。 当 这 么 做 了 之 后 ， 需 要 给 那个 导出 表 一 个 别名 ， 并 将 这 
个 别名 用 在 外 部 的 选择 语句 中 。 保 存 你 的 查询 代码 和 结果 集 并 提交 给 讲师 。( 顺 便 一 提 ，MDIFF 
并 不 是 标准 的 SQL， 而 是 Teradata 私有 的 分 析 型 SQL 功能 。) 

因为 数据 仓库 和 数据 集 市 可 能 会 增长 到 非常 大 的 规模 ， 所 以 它们 的 一 个 子 集 可 能 就 足够 用 来 进行 
某 些 分 析 。 使 用 SAMPLE SQL 命令 (标准 的 SQL) 创建 一 个 2004 年 的 订单 的 例子 。 随 机 分 出 
10% 的 行 给 这 个 样 例 。 其 中 包括 order ID、product ID、sales rep region ID、month description 和 
order amount。 按 月 排序 结果 并 展示 。 运 行 查 询 两 次 以 确保 样本 是 随机 抽取 。 提 交 你 的 SQL 查询 
和 两 次 结果 集 的 一 部 分 (足够 展示 它们 的 不 同 ) 给 讲师 。 

GROUP BY 自身 按照 类 别 建立 了 子 目 标 ，ROLLUP 扩展 了 GROUP BY 来 为 子 目标 建立 了 更 多 的 
类 别 。 使 用 所 有 订单 进行 一 个 ROLLUP 操作 ， 来 获得 按 产品 、 销 售 区 域 、 月 份 和 其 他 全 部 连接 划 
分 的 总 订单 数 。 显 示 按 产品 、 区 域 和 月 份 排序 的 结果 。 将 你 的 查询 以 及 结果 集 的 第 一 部 分 (包括 
产品 1 的 全 部 行 和 产品 2 的 一 些 行 ) 放 人 一 个 文件 中 提交 给 讲师 。 同 样 ， 进 行 一 个 常规 的 GROUP 
BY 操作 ， 将 查询 和 相似 结果 放 人 之 前 的 文件 中 ， 并 且 解 释 GROUP BY 与 混合 了 ROLLUP 的 


GROUP BY 之 间 的 不 同 之 处 。 
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www,teradata.com/tdmo ”杂志 Teradata 的 网 址 ， 包 括 了 Teradata 数据 仓库 系统 的 技术 和 应 用 的 文章 。 
(这 本 杂志 现 已 更 名 ， 在 新 名 称 与 老 名 称 下 的 文章 参见 www.teradatamagazine.com。) 


www.information-management.com 
含 着 有 关 数 据 仓库 的 文章 和 专栏 。 
一 本 关于 数据 仓库 的 电子 期 刊 。 


www.tdan.com 


杂志 Information Management 的 网 址 ， 这 是 一 本 月 刊 杂 志 ， 包 


www.inmoncif.com Bill Inmon 的 个 人 网 站 ， 他 是 一 位 在 数据 管理 与 数据 仓库 领域 的 权威 。 
www.kimballgroup.com ”Ralph Kimball 的 个 人 网 站 ， 他 是 一 位 数据 仓库 领域 的 权威 。 
www.tdwi.org 数据 仓库 协会 的 网 址 ， 它 是 一 个 关注 数据 仓库 方法 和 应 用 的 行业 群体 。 
www.datawarehousing.org 数据 仓库 知识 中 心 ， 包 含 很 多 供应 商 的 链接 。 
www.information-quality.com Larry English 的 网 站 ， 他 是 一 位 数据 质量 管理 领域 的 先驱 。 


www.teradatauniversitynetwork.com 


一 个 数据 库 、 数 据 仓库 和 商务 智能 的 资源 入 口 。 这 本 书 的 数据 
集 就 存放 在 该 网 站 中 ， 你 可 以 在 这 里 使 用 SQL、 数据 挖掘 、 维 建 模 以 及 其 他 工具 。 另 外 这 个 网 站 中 
还 有 一 些 源 自 于 阿肯色 大 学 的 大 型 数据 仓库 数据 库 。 新 的 文章 和 在 线 研讨 会 也 会 及 时 添加 到 该 网 站 
中 ， 所 以 经 第 访 问 它 或 者 订阅 它 的 RSS 源 来 获取 最 新 的 信息 。 你 需要 从 讲师 那里 获得 一 个 密码 来 使 
用 该 网 站 。 


ACM 美国 计算 机 学 会 

ANSI 美国 国家 标准 学 会 
API 应 用 编程 接口 

ASP 动态 服务 需 页 面 

ATM 自动 取款 机 

BOM 物料 清单 

BPM 商业 成 果 管 理 

B2B 企业 对 企业 网 络 交易 平台 
B2C 企业 对 客户 网 络 交 易 平台 


CAD/CAM 计算 机 辅助 设计 /计算 机 辅助 制造 


CASE 计算 机 辅助 软件 工程 
CD-ROM 只 读 光 盘 

CEO 首席 执行 官 

CFO 首席 财务 官 

CGI 通用 网 关 接 口 

CIF 公司 信息 工厂 

CIO 首席 信息 官 

COO 首席 运营 官 

CPU 中 央 处 理 带 

CRM 客户 关系 管理 

C/S 客户 /服务 器 

CSF 关键 成 功 因子 

DA 数据 管理 员 

DBA 数据 库 管 理 员 

DBD 数据库 描述 

DBMS 数据库 管理 系统 
DB2 IBM 的 关系 数据 库 管理 系统 
DCL 数据 控制 语言 

DDL 数据 定义 语言 

DFD 数据 流 图 

DML 数据 操作 语言 

DSS 决策 支持 系统 

DTD 文档 类 型 定义 

DVD 数字 多 功能 光盘 
EAI 企业 应 用 集成 

EDI 电子 数据 交换 

EDW 企业 数据 仓库 

EER 增强 的 实体 一 联系 模型 


缩 略 词 


EFT 电子 资金 转账 

EII 企业 信息 集成 

E-R 实体 一 联系 

ERD 实体 -联系 图 

ERP 企业 资源 计划 

ETL 抽取 -转换 - 装载 
FDA 食品 药品 监督 管理 局 
FK 外 键 

FTC 联邦 贸易 委员 会 
FTP 文件 传输 协议 

GPA ”平均 绩 点 

GUI 图 形 用 户 界 面 
HIPAA 健康 保险 携带 和 责任 法 案 
HTML 超 文本 标记 语言 
HTTP 超 文本 传输 协议 
IBM 国际 商业 机 器 公司 
ID 标识 符 

IDE 集成 开发 环境 

IE 信息 工程 

INCITS 信息 技术 标准 国际 协会 
IO 输入 /输出 

IP 因特网 协议 

IS 信息 系统 

ISO ”国际 标准 化 组 织 

IT 信息 技术 

JDBC Java 数据 库 连 接 
JSP Java 服务 器 页 面 

LAN 局 域 网 

LDB 敢 辑 数据 库 

MB 焰 字 节 

MIS 管理 信息 系统 

M: N 多 对 多 联系 

M: 1 多 对 1 联系 
MOLAP 多维 联 机 分 析 处 理 
MRP 物料 需求 计划 

MS 微软 

NIST 国家 标准 与 技术 研究 所 
ODBC 开放 数据 库 连 接 


了 36 凡 及 柯 


ODS 操作 数据 存储 
OLAP 联机 分 析 处 理 
OLTP 联机 事务 处 理 

PC 个 人 电脑 

PDA 掌上 电脑 

PIN 个 人 识别 号 

PK 主键 

PVFC Pine Valley 家 具 公 司 
RAD 快速 应 用 开发 
RAID 独立 磁盘 元 余 阵 列 
RAM 随机 存 取 存储 右 
RDBMS 关系 数据 库 管 理 系 统 
ROI 投资 回报 

ROLAP 关系 联机 分 析 处 理 
SCD 缓 变 维 

SCM 供应 链 管 理 

SDLC 系统 开发 生命 周期 
SOA ”面向 服务 的 体系 结构 
SOAP 简单 对 象 访问 协议 
SOX ”了 萨 班 斯 法 案 

SPL 结构 化 的 产品 标签 
SQL 结构 化 查询 语言 
SQL/CLI SQL/ 调用 级 接口 
SQL/DS ”SQL/ 数据 系统 


SQL/PSM ”SQL/ 持久 存储 模块 
SSL 安全套 接 层 


TCP/IP 传输 控制 协议 / 因特网 协议 


TDWI 数据 仓库 协会 

TQM 全面 质量 管理 

UDDI 通用 描述 、 发 现 与 集成 
UDT 用 户 定义 数据 类 型 
UML 统一 建 模 语言 

URI 统一 资源 标识 符 

URL 统一 资源 定位 符 
WSDL Web 服务 描述 语言 
WWW 万 维 网 

W3C 万 维 网 联盟 

XBRL 可 扩展 商业 报告 语言 
XML 可 扩展 标记 语言 

XSL 可 扩展 样式 表 语 言 
XSLT 可 扩展 样式 表 语 言 转换 
1: 1 1 对 1 联系 

1: M 1 对 多 联系 

INF 第 一 范式 

2NF 第 二 范式 

3GL 第 三 代 语 言 

3NF 第 三 范式 


Agile software development (敏捷 软件 开发 ) 数据 库 和 软件 开发 的 一 种 方法 。 该 方法 强调 “过 程 和 
工具 的 个 性 化 和 交互 性 ， 综 合 文档 上 的 工作 软件 ， 合 同 协商 的 客户 协作 以 及 跟踪 规划 的 改变 响应 ”。 

Alias (别名 ) 属性 的 其 他 可 选 名 称 。 

Anomaly (异常 ) 当 用 户 试图 更 新 那些 含有 宛 余数 据 的 表 时 可 能 会 产生 错误 或 不 一 致 。 有 三 种 类 型 : 
插入 异常 、 删 除 异常 和 更 新 异常 。 

Application partitioning (应 用 分 区 ) 如 果 和 希望 写 和 有 更 好 的 性 能 和 互 操 作 性 ， 那 么 可 以 将 应 用 代码 
部 分 分 配 在 客户 端 或 服务 器 部 分 (组 件 在 不 同 平台 上 的 能 力 )。 

Application Programming Interface (API， 应 用 程序 编程 接口 ) 具备 计算 机 操作 系统 引导 程序 功能 的 
一 组 应 用 程序 集 。 

Associative entity (关联 实体 ) 与 一 个 或 多 个 实体 实例 关联 且 具 有 不 同 于 其 关联 实体 实例 的 特有 属性 
的 实体 类 型 。 

Attribute inheritance (属性 继承 ) 子 类 型 实体 会 继承 相应 超 类 型 的 所 有 属性 值 和 所 有 联系 的 实例 的 性 质 。 

Attribute (属性 ) 一 个 组 织 所 关心 的 实体 或 联系 类 型 的 性 质 或 特征 。 

Backward recovery (rollback) ( 向 后 恢复 ( 回 滚 )) 对 数据 库 不 想 要 的 修改 的 撤销 或 取消 。 在 对 记录 
修改 的 图 像 应 用 到 数据 库 之 前 ， 数 据 库 返 回 到 一 个 更 早 的 状态 。 回 滚 是 逆转 非 正 常 撤销 或 终止 事务 
的 修改 。 

Base table (基本 表 ) 在 关系 数据 模型 中 ， 包含 原始 插入 数据 的 表 。 基 本 表 对 应 于 数据 库 概 念 模式 所 
确定 的 关系 。 

Big data (大 数据 ) 没有 明确 定义 的 术语 ， 指 的 是 由 于 数据 库 的 容量 、 速 度 和 和 多样 性 ， 无 法 使 用 常用 
关系 数据 库 在 可 容忍 的 时 间 内 来 获取 、 管 理 和 处 理 的 数据 。 

Binary relationship (二 元 联系 ) 两 个 实体 类 型 实例 之 间 的 联系 。 

Business rule (业务 规则 ) 一 个 为 了 维护 业务 结构 、 控 制 或 影响 业务 行为 而 定义 或 约束 业务 某 些 方面 
的 语句 。 

Candidate key (候选 键 ) 能 唯一 确定 关系 中 一 行 的 一 个 或 一 组 属性 。 

Cardinality constraint (基数 约束 ) 确定 一 个 实体 能 够 〈 或 必须 ) 与 另 一 个 实体 的 每 个 实例 关联 的 实例 
个 数 的 规则 。 

Catalog ( 目录) 由 一 系列 模式 组 成 ， 构 成 了 对 数据 库 的 描述 。 

Client/server system (客户 端 /服务 器 系统 ) 客户 端 和 服务 器 之 间 分 布 处 理 的 网 络 计算 模 型 ， 它 提供 
请 求 的 服务 。 在 数据 库 系统 中 ， 数 据 库 通 常 位 于 DBMS 处 理 服 务 器 上 。 客 户 端 处 理应 用 系统 或 来 自 
于 另 一 个 包含 应 用 程序 的 服务 器 的 服务 请 求 。 

Completeness constraint ( 完全 性 约束 ) 针对 一 个 超 类 型 实例 是 否 一 定 至 少 是 一 个 子 类 型 实例 的 问题 
的 约束 。 

Composite attribute (复合 属性 ) 由 若干 个 有 意义 的 成 分 (属性 ) 组 合成 的 属性 。 

Composite identifier (复合 标识 符 ) 由 复合 属性 构成 的 标识 符 。 

Composite key (组 合 键 ) 由 多 个 属性 组 成 的 主键 。 

Computer-Aided Software Engineering tool (计算 机 辅助 软件 工程 (CASE) 工具 ) 对 系统 开发 过 程 
的 某 些 部 分 提供 自动 支持 的 软件 工具 。 

Conceptual schema (概念 模式 ) 详细 的 并 且 是 技术 无 关 的 有 关 组 织 的 数据 的 全 局 结构 的 声明 。 

Conformed dimension (一 致 维 ) 关联 两 个 或 两 个 以 上 事实 表 的 一 个 或 多 个 维 表 ， 这 些 维 表 与 每 个 事 


实 表 有 着 相同 的 商业 含义 和 主键 。 

Constraint ( 约束 ) 不 能 被 数据 库 用 户 侵犯 的 规则 。 

Correlated subquery (关联 子 查询 ) 在 SQL 中 ， 处 理 内 查询 时 需要 用 到 外 查询 数据 的 子 查询 。 

Data administration ( 数据 管理 ) 负责 整个 组 织 中 数据 资源 管理 的 高 层 功能 ， 包 括 维护 全 公司 范围 的 
数据 定义 和 标准 。 

Data control language (DCL， 数 据 控 制 语 言 ) 用 于 控制 数据 库 ， 包 括 管理 权限 和 提交 (保存 ) 数据 。 

Data definition language ( DDL， 数 据 定 义 语 言 ) 用 于 定义 数据 库 ， 包 括 创 建 、 修 改 和 删除 表 及 建立 
约束 。 

Data governance (数据 治理 ) 监督 整个 组 织 高 水 平 的 数据 管理 的 组 织 型 团体 和 处 理 ， 通 常 指 导数 据 质 
量 的 措施 、 数 据 结 构 、 数 据 集成 和 熟练 的 数据 管理 、 数 据 仓库 和 商务 智能 以 及 其 他 数据 相关 的 事项 。 

Data independence (数据 独立 ) 将 数据 描述 与 使 用 该 数据 的 应 用 程序 分 离 。 

Data manipulation language ( DML， 数 据 操作 语言 ) 用 于 维护 和 查询 数据 库 ， 包 括 更 新 、 择 入 、 修 
改 及 查询 数据 。 

Data mart (数据 集 市 ) 一 个 范围 受到 限制 的 数据 仓库 ， 其 数据 来 自 对 一 个 数据 仓库 数据 的 选择 和 总 
结 ， 或 者 来 自 对 分 散 的 资源 数据 系统 进行 抽取 、 转 换 和 载 人 。 

Data mining (数据 挖掘 ) 使 用 传统 策略 、 人 工 智能 、 计 算 机 图 形 学 等 复杂 混合 技术 来 进行 知识 发 现 。 

Data model ( 数据 模型 ) 用 于 获取 数据 之 间 性 质 和 联系 的 图 形 系统 。 

Data steward (数据 管家 ) 有 责任 保证 在 数据 质量 上 ， 组 织 型 应 用 能 正确 支持 组 织 的 企业 目标 的 人 。 

Data type (数据 类 型 ) 由 系统 软件 组 织 如 DBMS 识别 的 详细 编码 模式 ， 表 示 组 织 的 数据 。 

Data visualization (数据 可 视 化 ) 为 了 人 类 分 析 而 将 数据 用 图 形 或 多 媒体 的 形式 表现 出 来 。 

Data warehouse (数据 仓库 ) 一 个 面向 主题 的 、 集 成 的 、 时 变 的 和 不 可 更 新 的 数据 集合 ， 用 于 支持 
管理 决策 程序 。 

Data warehouse (数据 仓库 ) 综合 决策 支持 数据 库 ， 其 数据 是 从 各 种 可 操作 型 数据 库 导 出 的 。 

Data (数据 ) 在 用 户 环 境 中 有 意义 和 重要 性 的 对 象 和 事件 的 存储 表示 。 

Database administration (数据 库 管 理 ) ”负责 物理 数据 库 设 计 和 处 理 技术 问题 的 技术 功能 ， 如 增强 安 
全 性 、 数 据 库 性 能 以 及 备份 和 恢复 等 。 

Database application (数据 库 应 用 ) 用 于 执行 数据 库 用 户 行为 的 一 系列 数据 库 活动 (创建 、 读 、 更 
新 和 删除 ) 的 应 用 程序 (或 一 组 相关 的 程序 )。 

Database Management System ( DBMS， 数 据 库 管理 系统 ) 用 于 创建 和 维护 用 户 数据 库 并 对 用 户 数 
据 库 提供 受 控 访问 的 软件 系统 。 

Database server( 数据 库 服务 器 ) 在 客户 端 / 服务 器 环境 下 负责 数据 库 的 存储 、 访 问 和 处 理 的 计算 机 。 
有 人 也 把 该 术语 用 作 描 述 一 个 二 层 客户 端 / 服务 器 应 用 。 

Database (数据 库 ) 组 织 的 逻辑 相关 数据 集合 。 

Degree ( 度 ) 参与 联系 的 实体 类 型 的 数量 。 

Denormalization (去 规范 化 ) 转换 规范 化 关系 到 非 规 范 化 物理 记录 说 明 的 过 程 。 

Dependent data mart ( 相关 数据 集 市 ) 一 个 数据 只 来 自 企 业 数 据 仓 库 及 其 调和 数据 的 数据 集 市 。 

Derived attribute (推导 属性 ) 其 值 可 以 通过 其 他 相关 的 属性 值 计 算得 出 的 属性 。 

Derived data (派生 数据 ) 经 过 筛选 、 格 式 化 和 聚集 后 用 于 终端 用 户 决 策 支 持 应 用 的 数据 。 

Determinant (决定 因子 ) 函数 依赖 中 箭头 左边 的 属性 。 

Disjoint rule ( 分离 法 则 ) 声明 一 个 超 类 型 实例 不 能 同时 是 两 个 或 更 多 子 类 型 的 成 员 。 

Disjointness constraint ( 分 离 性 约束 ) 针对 超 类 型 的 实例 是 否 可 以 同时 是 两 个 或 者 更 多 子 类 型 成 员 的 
问题 的 约束 。 

Dynamic SQL (动态 SQL) 当 应 用 执行 时 生成 的 特定 SQL 代码 。 

Dynamic view (动态 视图 ) 由 用 户 按 需 动态 创建 的 虚 表 。 动 态 视 图 不 是 临时 表 ， 它 的 定义 存储 在 系统 
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目录 中 ， 并 且 该 视图 的 内 容 物 化 为 使 用 该 视图 的 SQL 查询 的 结果 。 

Embedded SQL( 嵌 入 式 SQL) 在 用 男 一 种 语言 (如 C 或 Java) 写 的 程序 中 包含 的 硬 编码 的 SQL 语句 。 

Enhanced Entity-Relationship ( EER) model (增强 实体 - 联系 ( EER) 模型 ) 一 个 从 原始 E-R 模型 
扩展 而 来 的 具有 新 的 建 模 结 构 的 模型 。 

Enterprise data modeling (企业 数据 建 模 ) 这 是 数据 库 开 发 的 第 一 步 ， 这 里 将 声明 组 织 数 据 库 的 范 
围 和 一 般 内 容 。 

Enterprise Data Warehouse ( EDW ， 企 业 数 据 仓 库 ) 一 个 核心 的 、 集 成 的 数据 仓库 ， 它 是 支持 终端 
用 户 辅助 决策 应 用 的 控制 点 和 唯一 的 真实 版 本 。 

Enterprise Resource Planning ( ERP， 企 业 资 源 规划 ) 综合 了 企业 所 有 功能 的 业务 管理 系统 ， 包 括 
制造 、 销 售 、 财 务 、 市 场 、 库 存 、 会 计 以 及 人 力 资源 。ERP 系统 是 为 企业 检测 和 管理 其 业务 活动 提 
供 必 要 数据 的 软件 应 用 。 

Entity instance (实体 实例 ) 一 个 实体 类 型 的 单个 值 。 

Entity integrity rule (实体 完整 性 规则 ) 表明 主键 属性 (或 主键 属性 的 一 部 分 ) 不 能 为 空 值 。 

Entity type (实体 类 型 ) 一 个 有 共同 性 质 或 特征 的 实体 的 集合 。 

Entity (实体 ) 用 户 环境 中 的 个 人 人、 地点、 对 象 、 事 件 或 概念 等 ， 这 些 是 组 织 想 要 维护 的 数据 。 

Entity (实体 ) 在 用 户 环境 中 组 织 希 望 维护 的 数据 ， 可 以 是 人 物 、 地 点 、 对 象 、 事 件 或 者 某 个 概念 等 。 

Entity-Relationship diagram( 实体 - 联系 图 (E-R 图 ,或 者 ERD)) 一 种 E-R 模型 的 图 形 化 表示 方法 。 

Entity-Relationship model (实体 - 联系 模型 ( E-R 模型 )) 一 种 通过 数据 的 实体 类 别 及 实体 间 的 联系 
对 组 织 的 数据 或 者 业务 领域 的 数据 进行 逻辑 表示 的 方法 。 

Equi-join (等 值 连接 ) 基于 公共 列 值 相 同 条 件 的 连接 。 公 共 列 (多余 的 ) 都 显示 在 结果 表 中 。 

eXtensible Markup Language ( XML， 可 扩展 标记 语言 ) 基于 文本 的 脚本 语言 ， 采 用 类 似 于 HTML 
的 标签 描述 数据 的 结构 层次 。 

eXtensible Stylesheet Language Transformation ( XSLT， 可 扩展 样式 表 语 言 转换 ) 一 种 语言 ， 可 以 
用 于 复杂 XML 文档 转换 ， 也 可 以 用 于 从 XML 文档 创建 HTML 页 面 。 

Extent ( 块 ) 磁盘 存储 空间 中 一 段 连续 的 部 分 。 

Fat client ( 胖 客户 端 ) 客户 端 PC， 主 要 负责 处 理 表示 逻辑 、 扩 展 应 用 、 业 务 规则 逻辑 和 一 部 分 数据 
库 管 理 系统 功能 。 

Field (字段 ) 系统 软件 识别 的 应 用 数据 的 最 小 单位 。 

File organization (文件 组 织 ) 在 二 级 存储 设备 上 物理 地 安排 文件 记录 的 技术 。 

First Normal Form ( 1NF， 第 一 范式 ) 含有 主键 日 无 重复 分 组 的 关系 。 

Foreign key (外 键 ) 同一 数据 库 中 ， 关系 中 的 一 个 属性 ， 同 时 也 作为 另 一 个 关系 的 主键 。 

Function ( 函数 ) 返回 一 个 值 且 只 有 一 个 输入 和 参数 的 存储 子 过 程 。 

Functional dependency( 函数 依赖 ) 两 个 属性 间 的 约束 ， 其 中 一 个 属性 的 值 由 男 一 个 属性 的 值 来 确定 。 

Generalization ( 泛 化 ) 从 一 个 特 化 的 实体 类 型 集合 中 定义 一 个 更 加 通用 的 实体 类 型 的 过 程 。 

Grain( 粒 度 ) 事实 表 中 的 精确 水 平 ， 由 主键 的 全 部 组 件 (包括 全 部 外 键 和 其 他 主键 元 素 ) 的 相交 所 决定 。 

Hash index table ( 哈 希 索引 表 ) 使 用 哈 希 将 键 映 射 到 索引 位 置 的 文件 组 织 ， 其 中 有 一 个 指针 指 问 与 
该 哈 希 键 匹 配 的 实际 数据 记录 。 

Hashed file organization ( 哈 希 文件 组 织 ) 通过 哈 希 算法 确定 每 个 记录 地 址 的 存储 系统 。 

Hashing algorithm ( 哈 希 算法 ) 转换 主键 值 到 相关 记录 数 或 相关 文件 地 址 的 程序 。 

Homonym (多 义 词 ) 含有 多 重 意义 的 属性 。 

Identifier (标识 符 ) 其 值 能 够 识别 不 同 实 体 类 型 实例 的 某 个 属性 (或 联合 属性 )。 

ldentifying owner (标识 主体 ) 弱 实 体 类 型 所 依赖 的 实体 类 型 。 

ldentifying relationship (关联 标识 ) 弱 实体 类 型 和 它 所 依赖 的 主 实体 类 型 之 间 的 联系 。 

Independent data mart ( 独立 数据 集 市 ) 一 个 数据 集 市 中 的 数据 只 抽取 于 操作 型 环境 ， 而 不 来 目 数据 


仓库 。 

Index (索引 ) 用 于 确定 文件 中 满足 某 个 条 件 的 记录 的 位 置 的 表 或 其 他 形式 的 数据 结构 。 

Indexed file organization (索引 文件 组 织 ) 使 用 索引 顺序 地 或 非 顺 序 地 存储 记录 ， 索 引 可 以 使 软件 定 
位 单个 记录 。 

Information (信息 ) 以 某 种 方式 处 理 过 的 数据 ， 这 种 处 理 为 使 用 该 数据 的 用 户 增 加 了 知识 。 

Informational system (信息 型 系统 ) 基于 历史 数据 和 预测 数据 来 支持 决策 ， 用 于 复杂 的 查询 或 数据 
挖掘 应 用 。 

Java servlet 一 种 存储 在 服务 器 上 ， 并 且 包 含 基于 Java 的 应 用 的 业务 和 数据 库 逻 辑 的 Java 程序 。 

Join index (连接 索引 ) 来 自 两 个 或 多 个 表 上 的 列 的 索引 ， 这 些 列 具有 相同 的 值 域 。 

Join (连接 ) 导致 两 个 有 相同 域 的 表 结 合 到 一 个 单独 表 或 视图 中 的 关系 操作 。 

Logical data mart ( 逻辑 数据 集 市 ) 由 一 个 数据 仓库 的 关系 视图 建立 的 数据 集 市 。 

Logical schema (逻辑 模式 ) 特定 数据 管理 技术 的 数据 库 表示 。 

Maximum cardinality (最 大 基数 ) 一 个 实体 实例 与 另 一 个 实体 实例 关联 的 最 大 实例 个 数 。 

Metadata (元 数据 ) 描述 终端 用 户 数 据 性 质 和 特征 的 数据 以 及 这 些 数据 的 上 下 文 。 

Middleware (中 间 件 ) 一 种 可 以 使 不 同 的 软件 组 和 应 用 相互 操作 的 软件 ， 无 须 用 户 了 解 和 编写 低层 代 
码 即 可 实现 互通 操作 。 

Minimum cardinality (最 小 基数 ) 一 个 实体 实例 与 另 一 个 实体 实例 关联 的 最 小 实例 个 数 。 

Multidimensional OLAP ( MOLAP， 多 维 OLAP) 一 种 OLAP 工具 ， 将 数据 载 人 一 个 中 间 结 构 ， 通 常 
是 三 维 或 多 维 数组 。 

Multivalued attribute ( 多 值 属性 ) 实体 (或 联系 ) 实例 中 可 以 对 应 多 个 值 的 属性 。 

Natural join (自然 连接 ) 除了 重复 的 列 在 结果 中 被 去 除外 ， 其 他 的 与 等 值 连接 相同 的 连接 。 

Normal form (范式 ) 关系 的 一 种 状态 ， 要 求 属性 间 的 联系 满足 一 定 的 条 件 。 

Normalization (规范 化 ) 将 含有 异常 的 关系 分 解 ， 以 产生 更 小 的 、 结 构 完 整 的 关系 的 过 程 。 

NoSQL 是 “Not only SQL” 的 简称 ， 是 一 类 使 用 比 行列 形式 的 关系 数据 库 更 灵活 结构 的 用 于 存储 和 
访问 文本 及 其 他 非 结构 化 数据 的 数据 库 技术 。 

Null ( 空 值 ) 当 没 有 其 他 值 适合 或 合适 的 值 未 知 时 ， 分 配给 属性 的 值 。 

OnLine Analytical Processing ( OLAP， 联 机 分 析 处 理 ) 使 用 一 组 查询 与 报表 工具 来 提供 多 维 数 据 视 
图 并 允许 用 户 使 用 简单 的 窗口 技术 分 析 数 据 。 

Open DataBase Connectivity ( ODBC， 开 放 式 数据 库 连 接 ) 应 用 程序 编程 接口 ， 为 应 用 程序 提供 通 
用 语言 ， 以 便 独立 于 特定 DBMS 访问 和 处 理 SQL 数据 库 。 

Operational Data Store ( ODS， 操作 型 数据 存储 ) 一 个 集成 的 、 面 向 主题 的 、 可 连续 更 新 的 、 当 前 
值 的 ( 伴 有 最 近 历 史 )、 组 织 范围 的 、 详 细 的 数据 库 ， 为 操作 型 用 户 决策 支持 过 程 提供 服务 。 

Operational system (操作 型 系统 ) 一 个 基于 当前 数据 运行 实时 商业 活动 的 系统 。 也 叫 作 记录 系统 。 

Optional attribute (可 选 属性 ) 每 个 实体 (或 联系 ) 实例 中 可 以 为 空 值 的 属性 。 

Outer join (外 连接 ) 在 共有 列 中 没有 匹配 值 的 行 也 出 现在 结果 表 中 的 连接 。 

Overlap rule ( 重 双 法则) 声明 一 个 超 类 型 实例 可 以 同时 是 两 个 或 者 更 多 子 类 型 的 成 员 。 

Partial functional dependency (部 分 函数 依赖 ) 隆 数 依赖 中 一 个 或 多 个 非 主 属性 函数 依赖 于 主键 的 
一 部 分 (而 非 全 部 )。 

Partial specialization rule (部 分 特 化 法 则 ) 声明 一 个 超 类 型 的 实例 可 以 不 属于 任何 子 类 型 。 

Periodic data (定期 数据 ) 存储 后 从 来 不 会 被 物理 改变 或 删除 的 数据 。 

Physical file ( 物理 文件 ) 为 了 存储 物理 记录 的 目的 ， 在 二 级 存储 器 (如 磁带 或 硬盘 ) 上 分 配 的 一 个 命 
名 部 分 。 

Physical schema (物理 模式 ) 声明 来 自 逻 辑 模式 的 数据 如 何 通过 数据 库 管 理 系统 被 存储 在 计算 机 二 
级 存储 囊 中 。 


Pointer (指针 ) 能够 定位 相关 数据 字段 或 数据 记录 的 目标 地 址 的 数据 字段 。 

Primary key (主键 ) 关系 中 能 唯一 识别 每 一 行 的 一 个 属性 或 一 组 属性 。 

Procedure (过 程 ) 在 模式 中 被 分 配 了 特定 名 称 并 存储 在 数据 库 中 的 程序 化 SQL 语句 的 集合 。 

Prototyping (原型 方法 ) 系统 开发 的 迭代 过 程 ， 在 这 个 过 程 中 将 需求 转换 为 工作 系统 ， 并 且 要 通过 用 
户 和 分 析 人 员 的 紧密 合作 以 持续 地 修正 这 个 系统 。 

Real-time data warehouse (实时 数据 仓库 ) 一 个 企业 数据 仓库 ， 收 到 来 自 记 录 系 统 的 近 实 时 事务 数 
据 ， 分 析 仓 库 数据 ， 疝 数据 仓库 和 记录 系统 传递 近 实 时 的 业务 规则 ， 从 而 可 以 对 商业 事件 做 出 快速 
反应 。 

Reconciled data (调和 数据 ) 详细 的 当前 数据 ， 是 决策 支持 应 用 的 唯一 、 权 威 性 资源 。 

Recursive foreign key (递归 外 键 ) 参照 同一 关系 中 主键 值 的 外 键 。 

Referential integrity constraint ( 参照 完整 性 约束 ) 规定 外 键 值 必须 与 男 一 个 关系 中 的 主键 值 对 应 或 
外 键 值 为 空 。 

Relation (关系 ) 有 名 称 的 二 维 表 格 数据 。 

Relational database (关系 数据 库 ) 将 数据 用 表 的 集合 表示 的 数据 库 ， 该 数据 库 中 所 有 数据 之 间 的 联 
系 通过 相关 表 中 的 共同 值 来 表示 。 

Relational DBMS ( RDBMS， 关 系 DBMS) 数据 库 管理 系统 (DBMS) 管理 表 集 合 数据 ， 所 有 的 数据 
联系 由 相关 表 中 共同 的 值 表示 。 

Relational OLAP ( ROLAP， 关系 OLAP) 一 种 OLAP 工具 ,将 使 用 星 模式 或 者 其 他 规范 化 或 去 规范 
化 的 表 集 合 的 数据 库 看 作 传统 关系 数据 库 。 

Relationship instance (联系 实例 ) 实体 实例 之 间 的 关联 ， 每 个 联系 实例 都 与 其 参与 的 实体 实例 关联 。 

Relationship type (联系 类 型 ) 实体 类 型 之 间 有 意义 的 关联 。 

Repository (知识 库 ) 所 有 数据 定义 、 数 据 联系 、 显 示 和 报告 格式 以 及 其 他 系统 组 成 成 分 的 集中 的 知 
识 库 。 

Required attribute (必要 属性 ) 每 个 实体 (或 联系 ) 实例 必须 存在 与 其 关联 的 值 的 属性 。 

Scalar aggregate (标量 聚集 ) 包含 聚集 畏 数 的 SQL 查询 返回 的 单 值 。 

Schema (模式 ) 用 于 描述 用 户 创 建 的 对 象 ， 比 如 数据 库 的 基本 表 、 视 图 及 约束 。 

Second Normal Form ( 2NF， 第 二 范式 ) 每 个 非 主 属性 都 完全 函数 依赖 于 主键 的 1NF 关系 。 

Secondary key (二 级 键 ) 有 多 个 记录 有 相同 字段 (组 合 ) 值 的 一 个 字段 或 字段 组 合 ， 也 记 作 非 唯 一 

Sequential file organization (顺序 文件 组 织 ) 根据 主键 值 的 顺序 存储 文件 中 的 记录 。 

Service-Oriented Architecture ( SOA， 面 向 服务 的 体系 结构 ) 以 某 种 方式 进行 相互 通信 的 服务 的 集 
合 ， 通常 是 传递 数据 或 协调 商业 活动 。 

Simple (or atomic) attribute (简单 (或 原子 ) 属性 ) 一 个 在 组 织 中 有 意义 上 且 不 能 被 分 解 成 更 小 成 分 的 

Simple Object Access Protocol ( SOAP， 简 单 对 象 访问 协议 ) 基于 XML 的 通信 协议 ， 用 于 互联 网 
上 应 用 之 间 的 消息 发 送 。 

Snowflake schema (雪花 模式 ) 一 种 扩展 版 本 的 星 模式 ， 其 中 的 维 表 被 规范 化 成 许多 相关 表 。 

Specialization ( 特 化 ) 给 超 类 型 定义 一 个 或 者 多 个 子 类 型 和 建立 超 类 型 / 子 类 型 联系 的 过 程 。 

Star schema ( 星 模式 ) 一 种 维 数 据 与 事实 或 事件 数据 相 分 开 的 简单 数据 库 设 计 。 维 模型 是 星 模式 的 
另 一 名 称 。 

Strong entity type ( 强 实体 类 型 ) 一 种 独立 于 其 他 实体 类 型 而 存在 的 实体 类 型 。 

Subtype discriminator ( 子 类 型 鉴别 子 ) 一 个 超 类 型 的 属性 ， 其 属性 的 值 决 定 了 子 类 型 的 类 别 。 

Subtype ( 子 类 型 ) 在 某 个 实体 类 型 中 对 组 织 有 意义 的 实体 分 组 ,通常 组 内 这 些 实体 共享 相同 的 属性 
或 者 联系 ， 而 和 其 他 组 不 同 。 
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Supertype ( 超 类 型 ) 与 一 个 或 多 个 子 类 型 有 联系 的 一 般 实体 类 型 。 

Supertype/subtype hierarchy ( 超 类 型 / 子 类 型 层次 结构 ) 超 类 型 和 子 类 型 的 层次 性 排列 ， 其 中 每 一 
个 子 类 型 只 能 有 一 个 超 类 型 。 

Surrogate primary key (代理 主键 ) 关系 的 序列 号 或 其 他 指定 系统 的 主键 。 

Synonyms (同义词 ) 名 字 不 同 而 意义 相同 的 两 个 (或 更 多 ) 属性 。 

System Development Life Cycle ( SDLC， 系 统 开发 生命 周期 ) 用 于 开发 、 维 护 、 置 换 信息 系统 的 传 
统 方法 。 

Tablespace ( 表 空 间 ) 命名 的 逻辑 存储 单元 ， 存 储 来 自 一 个 或 多 个 数据 库 表 、 视 图 或 其 他 数据 库 对 象 
的 数据 。 

Ternary relationship (三 元 联系 ) 三 个 实体 类 型 实例 之 间 的 并 发 联系 。 

Thin client ( 瘦 客 户 端 ) 一 种 客户 端 (PC) 的 应 用 ， 主 要 提供 用 户 接 口 和 对 部 分 应 用 进行 处 理 ， 通 常 
不 提供 或 提供 有 限 的 本 地 数据 存储 。 

Third Normal Form ( 3NF， 第 三 范式 ) 不 含 传递 依赖 的 2NF 关系 。 

Three-tier architecture (三 层 体 系 结构 ) 包含 三 层 的 客户 端 /服务 器 结构 : 一 个 客户 端 层 和 两 个 服务 
器 层 。 虽 然 服 务 器 层 的 性 质 不 同 ， 但 配置 都 包含 应 用 服务 器 和 数据 库 服务 器 。 

Time stamp (时 间 戳 ) 一 个 关联 事情 件 发 生 而 受到 影响 的 数据 值 的 时 间 值 。 

Total specialization rule (全 部 特 化 法 则 ) 声明 每 一 个 超 类 型 实例 都 必须 是 其 子 类 型 的 一 个 实例 。 

Transaction (事务 ) 在 计算 机 系统 中 ， 必 须 完 全 处 理 或 完全 不 处 理 的 一 个 独立 工作 单元 。 输 入 客户 订 
单 是 事务 的 一 个 样 例 。 

Transient data (临时 数据 ) ， 现 有 的 记录 覆盖 了 之 前 的 记录 导致 之 前 的 数据 内 容 损 坏 的 数据 。 

Transitive dependency (传递 依赖 ) 主键 与 一 个 或 多 个 非 主 属性 间 的 函数 依赖 ， 这 些 非 主 属性 通过 其 
他 非 主 属性 依赖 于 主键 。 

Trigger (触发 器 ) 当 数 据 修改 ( 即 INSERT、UPDATE 或 DELETE) 发 生 或 遇 到 特定 的 数据 定义 时 ， 会 
被 考虑 (触发) 的 一 组 命名 的 SQL 语句 集合 。 如 果 在 触发 器 中 描述 的 条 件 出 现 ， 会 采取 规定 的 行动 。 

Unary relationship (一 元 联系 ) 只 有 一 个 实体 实例 参与 的 联系 。 

Universal data model (通用 数据 模型 ) 一 种 通用 的 或 者 模板 式 的 数据 模型 ， 可 以 被 重新 使 用 作为 数 
据 建 模 工 程 的 一 个 起 点 。 

Universal Description, Discovery, and Integration ( UDDI， 通 用 描述 、 发 现 与 集成 ) 在 企业 和 Web 
服务 之 间 建 立 一 种 基于 Web 服务 进行 通信 的 分 布 式 注 册 规范 。 

User view ( 用户 视 图 ) 用 户 执行 某 些 任务 需要 的 部 分 数据 库 的 逻辑 描述 。 

Vector aggregate (矢量 聚集 ) 包含 聚集 清 数 的 SQL 查询 返回 的 多 值 。 

Virtual table ( 虚 表 ) 由 DBMS 按 需 自动 构建 的 表 。 虚 表 里 不 包含 实际 数据 。 

Weak entity type ( 弱 实 体 类 型 】 一 种 依赖 于 其 他 实体 类 型 而 存在 的 实体 类 型 。 

Web Service Description Language ( WSDL，Web 服务 描述 语言 ) 一 种 基于 XML 的 语法 或 语言 ， 
用 来 描述 Web 服务 和 说 明 如 何 通过 公共 接口 使 用 Web 服务 。 

Web service ( Web 服务 ) 一 套 新 标准 ， 定 义 了 Web 上 软件 程序 之 间 的 自动 通信 协议 。Web 服务 基于 
XML ， 通 常 在 后 台 运 行 ， 为 计算 机 之 间 建 立 透 明 的 通信 。 

Well-structured relation (完整 结构 化 关系 ) 包含 最 少 的 元 余 ， 并 且 人 允许 用 户 插 入、 修改 和 删除 表 中 
的 数据 行 而 不 产生 错误 与 不 一 致 。 

XML Schema Definition (XSD，XML 模式 定义 ) W3C 推荐 的 用 于 定义 XML 数据 库 的 语言 。 

XPath 一 组 支持 XQuery 开发 的 XML 技术 集合 。 用 XPath 表达 式 查找 XML 文档 中 的 数据 。 

XQuery 一 种 XML 转换 语言 ， 人 允许 应 用 程序 查询 关系 数据 库 和 XML 数据 。 
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active data warehousing (主动 数据 仓库 )，312 
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ADD_MONTHS function (ADD_MONTHS 函数 )， 
210 
ad hoc queries (特殊 查询 )，24 
processing time (处 理 时 间 )，253 
star Schema ( 星 模式 )，318，319 
ADO.NET, 272 
aggregate data (聚集 数据 )，318 
aggregate functions (聚集 轴 数 )，220 
agile software development (敏捷 软件 开发 )，21 
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aliases (别名 )，61，155 
queries (查询 )，208-209 
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216, 222 
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application programming interfaces (应 用 编程 接 
口 )， 参 见 APIs (application programming 
interfaces ) 
applications (应 用 软件 )，15 
accessing databases (访问 数据 库 )，271 
longevity (寿命 )，193 
portability (可 移植 性 )，193 
specific functions required for (特定 功能 需求 )，12 
transaction-processing (事务 处 理 )，179 
application server and Web applications (应 用 服务 
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associative entities (关联 实体 ) 65, 71, 75， 
132，137-139，319 
associative relation (关联 关系 )，137 
converting relationship to (转换 联系 )，69 
full identifiers (完整 标识 符 )，76 
identifiers (标识 符 )，69，123，137-139 
surrogate identifiers (代理 标识 符 )，76 
associative relation (关联 关系 )，137，139-140 
atomic attributes (原子 属性 )，331， 参 见 simple 
attributes 
attributes (属性 )，9，32，46，47，57-62，125， 
Te 
aliases (别名 )，61，155 
dimension tables ( 维 表 )，317 
relationships (联系 )，62，63-65 
authorized user (授权 用 户 )，199 
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AVG function (AVG 函数 )，211，212 
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Basel Convention ( 巴 赛 尔 公 约 )，24 
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BEGIN TRANSACTION command ( BEGIN 
TRANSACTION 命令 )，254 
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110 
BETWEEN keyword (BETWEEN 关键 字 )，216 
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BIGINT data type (BIGINT 数据 类 型 )，197 
BigPVFC file (BigPVFC 文件 )，197-198 
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69, 7 
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BOOLEAN data type (BOOLEAN 数 据 类 型)， 
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Bughin, J., 331 
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business applications (商业 应 用 )，28-29 
business intelligence processing (商务 智能 处 理 )， 
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business logic (业务 逻辑 )，25，26 
business performance management System ( 商 
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performance management) system 
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Cartesian joins( 笛 卡 儿 连接 )，2335 
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cascading delete (级 联 删除 )，128 

CASE ( computer-aided software engineering ) 
tools (计算 机 辅助 软件 工程 工具 )，14， 
46，50，122 

EER notation (EER 标记 法 )，94 

modeling complex data relationships (复杂 数据 
联系 建 模 )，131 
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EER 图 到 关系 )，131 

CAST command (CAST 命令 )，249 
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Catterall, R., 184 

CEILING function (CEILING 也 数 )，211 

CHARACTER data type (CHARACTER 数据 类 型 )， 
参见 CHAR (CHARACTER ) data type 

character large object (字符 大 对 象 )， 参 见 CLOB 
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CHARACTER VARYING data type (CHARACTER 
VARYING 数据 类 型 )， 参 见 VARCHAR 
(CHARACTER VARYING ) data type 

CHAR (CHARACTER ) data type (CHAR 
(CHARACTER) 数据 类 型 )，4，169，196 
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Chisholm, M., 326 

Chouinard, PP, 142 

CIF ( corporate information factory) (公司 信息 工 
厂 )，310 

classes (类 )，61 

constraints (约束 )，61 
descriptive attributes (描述 性 属性 )，317 

client/server architectures (客户 端 / 服 务 句 体系 结 
构 )，269-271 

client/server projects and two-tier architecture ( 客 
户 端 /服务 器 项 目 和 二 层 体系 结构 )，271 

client/server systems (客户 端 /服务 器 系统 )， 
268 

CLOB ( character large object) (字符 大 对 象 )， 
169，289 

cloud computing ( 云 计算 ) 

databases (数据 库 )，24 
three-tier architectures (三 层 体 系 结构 )，286- 
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287 
clustering (聚集 )，175 ，255 
COALESCE function (COALESCE 晒 数 )，210 
COBIT ( Control Objectives for Information and 
Related Technology) (信息 和 相关 技术 控制 
目标 )，168 
Cobol (Cobol 语言 
Codd, E.F, 2 127, 192 
ColdFusion (ColdFusion 应 用 服务 器 平台 )，277 
collection of characters and ( %) wildcard (字符 集 
和 (%) 通配符 )，213 
columnar databases ( 列 式 数据 库 )，331-332 
columns ( 列 )，200 
null values ( 空 值 )，214 
Committee of Sponsoring Organizations (发 起 组 
织 委 员 会 )， 参 见 COSO (Committee of 
Sponsoring Organizations ) 
COMMIT WORK command ( COMMIT WORK 命 
令 )，254 
company-wide view of data and data warehousing 
(公司 范围 数据 视图 和 数据 仓库 )，303-306 
comparison operators( 比较 操作 符 )，213 
compatible data types (兼容 数据 类 型 )，249 
completeness constraints (完全 约束 )，101 
composite attributes (复合 属性 )，60，144 
fields (字段 )，169 
regular entities (普通 实体 )，132-133 
vs. simple attributes (与 简单 属性 )，58 
composite identifiers (复合 标识 符 )，60 
composite key (组 合 键 )，123，125，149 
composite unique key (组 合 唯 一 键 )，183 
computer-aided software engineering tools ( 计 
算 机 辅助 软件 工程 工具 )， 参 见 CASE 
(computer-aided software engineering ) 
Computer Associates ( 冠 群 电脑 公司 )，110 
CONCAT function (CONCAT 函数 )，210 
conceptual data model (概念 数据 模型 )，18，30 
conceptual schema (概念 模式 )，18，22 
concurrency controls (并 发 控制 )，255 
condition (trigger)( 条 件 (触发 ))，257 
confirmatory data mining (验证 数据 挖 据 )，339 
conformance，data (一 致 ， 数 据 )，344 
conformed dimensions (一 致 维 )，325，331 
consistency，data (一 致 性 ， 数 据 )，11，343 
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constraints (约束 )，12 
dropping and reenabling (删除 和 再 使 能 )，203 
referential integrity (参照 完整 性 )，129 
relational data model (关系 数据 模型 )，126-131 
as Special case of triggers (触发 的 特殊 情形 )， 
256—257 
supertype/subtype relationships ( 超 类 型 / 子 类 
型 联系 )，100-106 
constructed data types (构造 的 数据 类 型 )，197 
Control Objectives for Information and Related 
Technology (信息 和 相关 技术 的 控制 目 
标 )， 参 见 COBIT ( Control Objectives for 
Information and Related Technology) 
controls，designing for files (控制 ， 文 件 设计 )，182 
conversion costs (转换 成 本 )，14 
correlated subqueries (关联 子 查 询 )，246-247 
COSO ( Committee of Sponsoring Organizations ) 
(发 起 组 织 委 员 会 )，168 
CouchDB, 333 
COUNT function (COUNT 函数 )，210,，211,，212 
C programming language (C 程序 设计 语言 )，216 
CREATE command (CREATE 命令 )，199 
CREATE INDEX command ( CREATE INDEX 命 
邻 ) 201 
CREATE SCHEMA command ( CREATE SCHEMA 
命令 )，199 
CREATE SQL DDL command ( CREATE SQL DDL 
命令 )，199 
CREATE TABLE command ( CREATE TABLE 命 
令 )，129，199，200-201 
CREATE UNIQUE INDEX command ( CREATE 
UNIQUE INDEX 命令 )，206 
CREATE VIEW command (CREATE VIEW 命令 )， 
199 
CRM (customer relationship management) systems 
(客户 关系 管理 系统 )，27，305 
CROSS keyword (CROSS 关键 字 )，233 
cross-system communication ( 跨 系 统 通 信 )，193 
currency，data (流通 性 ， 数 据 )，343 
CUSTOMER entity (CUSTOMER 实体 )，48 
customer order status (客户 订单 状态 )，82-83 
customer relationship management systems ( 客 
户 关 系 管理 系统 )， 参 见 CRM ( customer 


relationship management ) systems 


D 


DAs (data administrators )( 数 据 管 理 员 )，15 
dashboards (仪表 盘 )，338-339 
data (数据 ) 
accessibility (访问 能 力 )，13 
accuracy (准确 性 )，14，343 
analyzing at finer level of detail (更 精细 细节 层 
分 析 )，336 
auditing (审计 )，256 
availability (可 用 性 )，18 
cleaning up (清洗 )，12 
company-wide view (公司 范围 视图 )，303-306 
completeness (完整 性 )，343 
conformance (连贯 性 )，344 
consistency (一 致 性 )，11，343 
context for (上 下 文 )，6 
currency (流通 性 )，343 
defining (定义 )，4-5，51-53 
display (显示 )，209 
duplication (元 余 )，8 
efficient processing (有 效 处 理 )，172 
enforcing standards (增强 标准 )，12 
event-driven (事件 驱动 )，314-315 
free-form fields vs. structured fields ( 非 格式 字 
段 与 结构 化 字段 )，304 
governance ( 文 配 )，341-342 
inconsistent formats (不 一 致 格式 )，8 
inconsistent key structures (不 一 致 键 结构 )，304 
inconsistent values (不 一 致 值 )，304 
independence (独立 )，11 
vs. information (与 信息 )，5-6 
integrating (综合 )，28-29，344 
legacy systems (遗留 系统 )，3 
limited sharing (有 限 共 享 )，8 
missing (缺失 )，171，304 
multidimensional view (多 维 视 图 )，335 
operational systems (操作 系统 )，303 
periodic (周期 )，315-317 
planned redundancy (计划 的 元 余 )，11 
properties or characteristics (性 质 或 特征 )，6 
quality (质量 )，12 
relationships with business objects (具有 业务 目 
标的 联系 )，16 


representing as attributes or entities (作为 属性 
或 实体 表达 )，69-71 
responsiveness ( 啊 应 性 )，13 
scope of (范围 )，16 
security (安全 )，6 
sharing (共享 )，11-12，28-29 
silos (孤岛 )，303 
status (状态 )，314-315 
storing (存储 )，6 
structured (结构 化 )，4 
synonyms (同义词 ) ，304 
time-dependent (时 间 相 关 )，74-75 
timeliness (时 效 性 )，343 
time stamp (时 间 惟 )，74 
transient (有 瞬时)，315-316 
uniqueness (唯一 性 )，343 
unstructured ( 非 结 构 化 )，4，332-333 
usage descriptions (用 法 描述 )，167 
data administration (数据 管理 )，12 
data administrators (数据 管理 员 )， 参 见 DAs (data 
administrators ) 
database administrators (数据 库 管 理 员 )， 参 见 DBAs 
(database administrators ) 
database applications (数据 库 应 用 )，8 
developing (开发 )，28-35 
interface to 〈 界 面 )，28 
database approach (数据 库 方法 )，8 
advantages (优点 )，11-13 
costs and risks (成 本 与 风险 )，13 
data accessibility and responsiveness (数据 可 访 
问 性 和 响应 性 )，13 
data models (数据 模型 )，8 
data quality (数据 质量 )，12 
DBMS ( database management system) ( 数 
据 库 管理 系统 )，10-11 
decision support (决策 支持 )，13 
entities (实体 )，8-9 
explicit backup and recovery ( 显 式 备份 和 恢复 )， 
14 
vs. file-based approach (与 基于 文件 方法 )，10-11 
independent of programs (程序 独立 性 )，13 
organizational conflict (组 织 冲突 )，14 
reduced program maintenance (缩减 的 程序 维护 )， 
EE; 
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relational databases (关系 数据 库 )，10 
relationships (联系 )，9-10 
specialized personnel (专业 人 员 )，14 
standards enforcement (强制 标准 )，12 
database development (数据 库 开 发 )，16-22 
agile software development (敏捷 软件 开发 )， 
21 
alternative IS ( information systems ) development 
approaches ( 备 选 的 IS (信息 系统 ) 开发 方 
法 )，20-21 
bottom-up (目下 向 上 )，16 
conceptual data modeling (概念 数据 建 模 )，18 
database implementation (数据 库 实现 )，19 
enterprise data modeling (企业 数据 建 模 )， 
16--18 
logical database design (逻辑 数据 库 设计 )，18- 
19 
physical database design and definition (物理 数 
据 库 设计 和 定义 )，19 
SDLC (systems development life cycle) (系统 开 
发 生命 周期 )，17-19 
three-schema architecture for( 三 级 模式 体系 结构 )， 
21-22 
database environment (数据 库 环 境 )，14-16，27 
database management systems (数据 库 管 理 系统 )， 参 
见 DBMSs (database management systems) 


database OLAP (数据 库 OLAP)， 参 见 DOLAP 
(database OLAP) 

database-oriented middleware ( 面 问 数 据 库 中 间 
件 )，271 


database processing (数据 库 处 理 ) 
customer order status (客户 订单 状态 )，82-83 
optimizing performance (优化 性 能 )，184-185 
product information (产品 信息 )，81 
product line information (产品 线 信 息 )，81-82 
database projects (数据 库 项 目 )，16 
databases (数据 库 )，2-4，6，15 
accessing from application (来 自 应 用 的 访问 )， 
272—275 
administration (管理 )，36 
alerts (警报 )，3 
analyzing (分 析 )，30-32 
authorized user (授权 用 户 )，199 
big data (大 数据 )，331-332 
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bottom-up analysis (和 目 旗 回 上 分 析 )，18 
business logic (业务 逻辑 )，25，26 
business rules (业务 规则 )，202 

cloud computing ( 云 计 算 )，24 

columnar ( 列 式 )，331-332 

complexity (复杂 性 )，4 

conceptual data model (概念 数据 模型 )，30 
consistency of use (一 致 性 使 用 )，256 

data integrity (数据 完整 性 )，256 


decision support applications (决策 支持 应 用 )， 


13，36-37 

deleting contents (删除 内 容 )，205 
designing (设计 )，32-35 
development version (开发 版 本 )，195 
duration (持续 时 间 )，322-323 
enterprise applications (企业 应 用 )，26-28 
event data (事件 数据 )，314-315 
evolution( 演 化)，19，29-30 
file organization (文件 组 织 )，176-182 
fully normalized (充分 规范 化 )，172 
grants on columns ( 列 上 授权 )，255 
graphical user interface (图 形 用 户 界 面 )，25 
implementation (实现 )，19 
incompatible (不 兼容 )，3 
information about users (有 关 用 户 的 信息 )，255 
in-memory (内 存 )，24 
integrating data into (整合 数据 )，28-29 
interacting with data (与 数据 相互 作用 )，24 
log files (日 志文 件 )，254,，315 

metadata (元 数据 )，28 

multitier client/server (多 层 客 户 端 / 服务 丹 )，26 
normalization (规范 化 )，19 
object-oriented (面向 对 象 )，24 
object-relational (对 象 关系 )，24 
partially normalized (部 分 规范 化 )，172 
personal (个 人 )，25 
physically designing (物理 设计 )，33-34 
physical storage (物理 存储 )，199 
poor implementation (不 好 的 实现 )，13 
production version (产品 版 本 )，195 
project planning (项 目 规 划 )，30 
properly designing (恰当 的 设计 )，8 
queries (查询 )，24-25，33 
relational (关系 )，10 


removing tables or views (删除 表 或 视图 )，203 

retrieving XML documents (检索 XML 文档)， 
290-291 

schemas (模式 )，195 

SQL definition (SQL 定义 )，199-200 

stand-alone (独立 )，14，30 

status data (状态 数据 )，314--315 

storage space (存储 空间 )，199 

storing objects (存储 对 象 )，4 

structured data (结构 化 数据 )，4 

table definitions ( 表 定 义 )，202-203 

technology improvements (技术 改进 )，303 

three-tier architectures (三 层 体 系 结构 )，278- 
284 

triggers (触发 )，171 

two-tier architecture (二 层 体 系 结构 )，271-275 

two-tier client/server (二 层 客 户 端 /服务 器 )， 
25—26 

types (类 型 )，25-28 

unstructured data( 非 结构 化 数据 )，4 

updated performance statistics (更 新 的 性 能 统 
255 

updating (更 新 )，205，255 

usage (使 用 方式 )，35-36 

Web-based applications and (基于 Web 的 应 用 )， 
3 

XML documents (XML 文档 )，290 


database servers (数据库 服务 器 )，25，28，271 


database stored on (数据 库存 储 )，271 

TP (transaction processing ) monitor (事务 处 理 
监视 船 )，286 

Web applications (Web 应 用 )，277 


database systems (数据 库 系 统 )，22-24 


computer forensics (计算 机 取证 )，24 

hierarchical and network database management 
systems (层次 和 网 状 数据 库 管 理 系统 )， 
23，24 

object-oriented databases (面向 对 象 数据 库 )，24 

object-relational databases (对 象 关系 数据 库 )，24 

relational data model (关系 数据 模型 )，24 


data blocks (数据 块 )，175 
data control language commands (数据 控制 语言 


命令 )， 套 见 DCL ( data control language ) 


commands 


data cube (数据 立方 体 )，335 
data definition language commands (数据 定义 语言 
命令 )， 参 见 DDL ( data definition language) 
commands 
data dictionaries (数据 字典 )，255-256 
Data General Corporation (数据 总 公司 )，193 
data governance (数据 治理 )，341-342 
data integrity (数据 完整 性 )，122 
controlling (控制 )，170-171 
data integrity controls (数据 完整 性 控制 )，202 
data maintenance (数据 维护 )，254 
data management logic (数据 管理 逻辑 )，269 
data manipulation (数据 操作 )，122 
data marts ( 数据 集 市 )，37，307 
aggregated grains (聚集 粒度 )，322 
complexity for users (对 用 户 的 复杂 性 )，308 
complex queries (复杂 查询 )，339 
consistent data (一 致 的 数据 )，308 
vs. data warehouses (与 数据 仓库 )，307，312 
decision-making applications ( 决策 应 用 )，307 
dependent (依赖 )，308-310 
derived data (导出 数据 )，317-318 
dimensional model ( 维 模 型 )，18 
dimensions and facts required (维和 事实 )，329- 
331] 
history (历史 )，322，328 
inconsistent (不 一 致 )，308 
independent (独立 )，306-308 
joining and summarizing data (连接 与 汇总 数据 )， 
320 
limited analysis (有 限 的 分 析 )，308 
limited in scope (有 限 的 范围 )，307 
logical (逻辑 )，309，310-_312 
metadata (元 数据 )，314，334 
modeling date and time (日 期 与 时 间 建 模 )，324 
optimizing performance (优化 性 能 )，308 
reconciliation layer (调和 层 )，320 
scaling costs (缩放 代价 )，308 
star schema ( 星 模式 )，318--319 
types (类 型 )，308 
user interface (用 户 界 面 )，333-341 
data mining applications (数据 挖掘 应 用 )，340-- 
341 
data-mining techniques (数据 挖掘 技术 )，340 
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data mining tools (数据 挖掘 工具 )，339 
data models (数据 模型 )，8，108，251 
best-practices (最 好 的 实践 )，110 
business rules (业务 规则 )，45-46 
conceptual (概念 )， 参 见 conceptual data model 
documenting rules and policies (文件 编制 章程 
和 政策 )，50 
packaged (打包 的 )，110-112 
predefined (预定 义 )，110 
relational (关系 )， 参 见 relational data model 
data objects (数据 对 象 ) 
characteristics (特征 )，52 
defining (定义 )，46，52 
naming (命名 )，46，50-51 
data pivoting (数据 旋转 )，336 
data processing efficiency (数据 处 理 效 率 )，167 
data processing logic (数据 处 理 逻 辑 )，269 
data profiling(〈 数 据 谢 析 )，112 
data quality (数据 质量 ) 
characteristics of (特征 )，343-344 
managing (管理 )，342 
DataReader (数据 阅读 器 )，274 
data recovery services (数据 恢复 服务 )，254 
DataSet (数据 集 )，274 
data stewards ( 数据 管家 )，341 
data structure (数据 结构 ) 
defined (定义 )，122 
relational (关系 )，123 
data types (数据 类 型 )，169，196--197 
attributes (属性 )，169-170，196 
compatibility (兼容 性 )，249 
constructed (构造 )，197 
fields (字段 )，169-171 
graphic (图 形 )，196，197 
image (图 像 )，196，197 
levels of importance (重要 性 层次 )，169 
physical database design (物理 数据 库 设计 )，167 
procedures (过 程 )，260 
special manipulation capabilities (特殊 的 操作 功 
能 )，170 
SQL (Structured Query Language) (结构 化 查询 
语言 )，196-197 
tables ( 表 )，200 
user-defined (用 户 定义 )，197 
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data visualization (数据 可 视 化 )，338 
data warehouse data (数据 仓库 数据 ) 
characteristics (特点 )，314-317 
status vs. event data (状态 与 事件 数据 )，314-315 
transient vs. periodic data (瞬时 与 周期 性 数据 )， 
315—317 
data warehouses (数据 仓库 )，27，37，302 
accessing (访问 )，307 
adding value to data (数据 添加 值 )，306 
architectures (体系 结构 )，306-314 
basic concepts (基本 概念 )，302-306 
business activity attributes (业务 活动 属性 )，317 
centralizing data (集中 数据 )，306 
changes (改变 )，317 
classes of descriptive attributes (描述 属性 类 别 )， 
S17 
cleaning up data for (清洗 数据 )，12 
complex queries (复杂 查询 )，339 
vs. data marts (对 比 数据 集 市 )，307，312 
dependent data mart (相关 数据 集 市 )，308- 
310 
descriptive attributes (描述 性 属性 )，317 
descriptive data relationships (描述 数据 联系 )， 
308 
designing environment (设计 环境 )，308 
eliminating contention for resources (消除 资源 
竞争 )，306 
extraction and loading (抽取 与 装载 )，307 
historical record of key events (关键 事件 的 历史 
记录 )，316 
history of values matching history of facts (与 事 
实 历史 匹配 的 历史 值 )，328 
independent data mart data warehousing environment 
(独立 数据 集 市 数据 仓库 环境 )，306-308 
integrated data (分 组 数据 )，303 
logical data mart ( 逻辑 数据 集 市 )，310--312 
modeling date and time (日 期 和 时 间 建 模 )，324 
new source of data (数据 新 资源 )，308 
nontransactions ( 非 事 务 )，314 
nonupdateable data (不 可 更 新 数据 )，303 
NoSQL capabilities (NoSQL 能 力 )，333 
ODS ( operational data store ) architecture (操作 
数据 存储 体系 结构 )，308-310 
real-time (实时 )，310-312 


relational databases (关系 数据 库 )，303 
scalability issues (可 扩展 性 问题 )，308 
subject-oriented (面向 主题 )，302 
three-layer data architecture (三 层 数 据 体 系 结 
构 )，312-314 
time series for variables (时 间 序 列 变量 )，316- 
317 
time-variant (时 间 变 量 )，303 
transactions (事务 )，314 
user interface (用 户 界面 )，333-341 
data warehousing (数据 仓库 ) 
active (主动 )，312 
applications (应 用 )，307 
company-wide view (全 公司 视图 )，303-306 
computer hardware advances (计算 机 硬件 进展 )， 
303 
history (历史 )，303 
join index (连接 索引 )，179--180 
need for (需求 )，303 
operational ( or transaction processing ) systems 
(操作 (或 事务 处 理 ) 系统 )，303 
processing (处 理 )，331 
systems of record (记录 系统 )，303 
The Data Warehousing Institute (数据 仓库 学 会 )， 
参见 TDWI (The Data Warehousing Institute ) 
Date, C.J 121 
DATE data type (DATE 数据 类 型 )，4，169，170 
date dimension (日 期 维 )，324，331 
date function (日 期 图 数 )，210 
dates (日 期 ) 
formatting (格式 化 )，213 
modeling( 建 模 )，324 
DB2 (DB2 数据 库 )，192，333 
DBAs ( database administrators) (数据 库 管理 
员 ), 15 
DBMSs ( database management systems) ( 数 
据 库 管 理 系 统 )，10-11，15 
automating backup and recovery tasks (自动 备 
份 和 恢复 任务 )，14 
comparison operators (比较 操作 符 )，213 
constraints (约束 )，12 
data types〈 数 据 类 型 )，196-197 
defining joins (定义 连接 )，235 
high-level productivity tools (高 层 产能 工具 )，12 


operating system file (操作 系统 文件 )，175 
sorting without index (无 索引 存储 )，253 
DCL ( data control language) commands (数据 
控制 语言 命令 )，196 
DDL ( data definition language)j commands ( 数 
据 定义 语言 命令 )，195，257 
debugging queries (调试 查询 )，222，251 
decision support applications (决策 支持 应 用 )，179 
DEFAULT command (DEFAULT 命令 )，201 
default value ( 缺 省 值 )，170 
definitions，data (定义 ， 数 据 )，51-53 
degenerative dimensions( 降 维 )，327 
degree of relationships (联系 的 度 )，66-69 
DELETE command (DELETE 命令 )，205，207， 
3 
deleted records (删除 记录 )，317 
DELETE query (DELETE 查询 )，274 
deletion anomaly (删除 异常 )，130-131，150 
DeLoach, A., 252 
denormalization (去 规范 化 ) 
cautions (注意 事项 )，174-175 
dimension tables ( 维 表 )，319 
errors and inconsistencies (错误 和 不 一 致 性 )，174 
many-to-many relationship (多 对 多 联系 )，172- 
174 
more storage space for raw (原始 数据 需要 更 多 
的 存储 空间 )，174 
opportunities for (机 过 )，172-174 
processing activities (处 理 活动 )，174 
reference data (参照 数据 )，174 
two entities with one-to-one relationships (具有 
一 对 一 联系 的 两 个 实体 )，172 
departmental applications (部 门 应 用 )，271 
dependent data mart ( 相关 数据 集 市 )，308--310， 
329 
dependent entity (依赖 实体 )，55 
derived attributes vs. stored attributes (导出 属 
性 与 存储 属性 )，59 
derived data (导出 数据 )，313，317-318 
derived tables (导出 表 ) 
aggregating result (聚集 结果 )，212 
identifying (标识 )，207 
subqueries ( 子 查询 )，247-248 
DESC keyword (DESC 关键 字 )，220 
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descriptive attributes (描述 属性 )，317 
descriptors (描述 符 )，133 
Design phase (设计 阶段 )，18--19 
detailed data (详细 数据 )，318 
determinants (决定 因子 )，146，149 
candidate key (候选 键 )，147 
normalization (规范 化 )，152-153 
Devlin, B., 303 
DG/SQL, 193 
dimensional attributes( 维 属性 )，328-329 
dimensional modeling ( 维 建 模 )，331 
dimension row ( 维 行 )，328 
dimensions ( 维 ) 
conformed (一 致 )，325，331 
degenerative (退化 )，327 
hierarchies (层次 )，325-328，331 
required (必需 )，329-331 
slowly changing ( 绥 变 )，328-329 
summarizing more than three (总 结 多 于 三 个 )，337 
dimension tables( 维 表 ) 
decoding (解码 )，331 
denormalization (去 规范 化 )，319，320 
one-to-many relationship (一 对 多 联系 )，319 
primary key (主键 )，319，322 
shared (共享 )，325 
surrogate keys (代理 键 )，321-322 
disjointness constraints (分 离 式 约束 )，101-102 
disjoint rule (分 离 法 则 )，102 
disjoint specialization，partial (分 离 特 化 ， 部 分 )， 
108 
disjoint subtypes (分 离子 类 型 )，103 
DISTINCT keyword ( DISTINCT 关键 字 )，208， 
217-218，251] 
distinct values (不 同 值 )，217-218 
division(/) operator (除法 操作 符 )，209 
DML ( data manipulation language) (数据 操 
作 语 言 ) 
commands (命令 )，195-196 
triggers (触发 )，257 


document structure declarations (文档 结构 声明 )， 


参见 DSDs (document structure declarations ) 
DOLAP (database OLAP)( 数 据 库 OLAP)，336 
domain constraints( 域 约束 )，126 
domains( 域 ) 
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definition (定义 )，126 
foreign key (外 键 )，129 

DOS/VSE operating system(DOS/VSE 操作 系统 )， 
192 

drill-down (下 钻 )，336-337 

DROP ANY TABLE system privilege (DROP ANY 
TABLE 系统 优先 权 )，203 

DROP command (DROP 命令 )，199，206 

DROP SCHEMA command ( DROP SCHEMA 命 
令 )，200 

DROP TABLE command ( DROP TABLE 命令 )，199- 
200，203 

DROP VIEW command ( DROP VIEW 命令 )，200， 
203 

DSDs ( document structure declarations) (文档 结 
构 声 明 )，288 

duplicate rows (重复 行 )，217-218 

Dutka, A.F., 146 

Dyché, J., 336, 340 

dynamic SQL ( Structured Query Language)( 动 
态 结构 化 查询 语言 ) 261，262 

dynamic views (动态 视图 )，223，224--225 


E 


eBay, 284 
EDW (enterprise data warehouse )( 企业 数据 仓 
库 )，313 
dependent data mart (相关 数据 集 市 )，309- 
310 
metadata (元 数据 )，314 
EER (enhanced entity-relationship) model (增强 的 
实体 - 联系 模型 ) 
example (举例 )，106-110 
supertypes and subtypes ( 超 类 型 和 子 类 型 )， 
93—94 
EER-to-relational transformation ( EER 到 关系 的 
转换 ) 
associative entities (关联 实体 )，132，137-139 
binary relationships (二 元 联系 )，135-137 
regular entities (常规 实体 )，131，132-133 
summary (汇总 )，143 一 144 
supertype/subtype relationships( 超 类 型 / 子 类 型 
联系 )，141-143 


ternary (and n-ary ) relationships (三 元 (和 元) 
联系 )，141 
unary relationships (一 元 联系 )，139-141 
weak entities ( 弱 实 体 )，131，133-135 
Elmasri, 及. 03， 100. 105; 15€6 
embedded SQL ( Structured Query Language) 
( 散 入 式 SQL (结构 化 查询 语言 ))，261- 
262 
commands (命令 )，196 
END TRANSACTION command (END 
TRANSACTION 命令 )，254 
end-user (终端 用 户 )，15 
computing (计算 )，303 
enhanced client/server architectures (增强 的 客户 
痊 /服务 器 体系 结构 )，275 
enhanced entity-relationship model (增强 的 实 
体 一 联系 模型 )， 参 见 EER ( enhanced 
entity-relationship ) model 
enterprise applications (企业 级 应 用 )，26-28 
enterprise databases (企业 数据 库 )，27-28 
enterprise data model (企业 数据 模型 )，16， 
47-48，313 
enterprise data warehouse (企业 数据 仓库 )， 参 
见 EDW (enterprise data warehouse ) 
enterprise modeling (企业 建 模 )，18 
enterprise resource planning systems (企业 资源 计 
划 系 统 )， 参 见 ERP (enterprise resource 
planning ) systems 
entities ( 实体 )，8-9，46 
associative (关联 )，132，137-139 
attributes (属性 )，9 
E-R (entity-relationship ) diagrams (E-R (实体 
联系 ) 图 )，48 
E-R (entity-relationship ) model ( E-R (实体 一 
联系 ) 模型 )，47 
familiarizing yourself with (熟悉 )，251 
instances (实例 )，9，53-54 
links (链接 )，251 
metadata (元 数据 )，48 
modeling( 建 模 )，53-S7 
one-to-one relationships (一 对 一 联系 )，172 
permissible characteristics or properties (允许 的 
特征 或 特性 )，61 
physical characteristics of (物理 特征 )，61 


regular (常规 )，131，132-133 
relationships (联系 )，9--10，33-34，47 
representing data as (表示 数据 为 )，69-71 
types (类 型 )，53 
weak ( 弱 )，131，133-135 
entity instances (实体 实例 ) 
association between (实体 之 间 关 联 )，63 
vs. entity types (与 实体 类 型 )，53 
history (历史 )，57 
single-valued attributes ( 单 值 属 性 )，59 
entity integrity rule (实体 完整 性 法 则 )，126--127 
entity-relationship diagrams (实体 -联系 图 )， 参 
见 E-R (entity-relationship ) diagrams 
entity-relationship models (实体 -联系 模型 )， 参 
见 E-R (entity-relationship ) models 
entity types (实体 类 型 )，46 
abbreviation or short name (简称 或 短 名 )，56 
associative entities (关联 实体 )，65 
attributes (属性 )，57-62,，71 
concise (简洁 )，56 
defining (定义 )，56-57 
distinguishing instances (有 区 别 的 实例 )，59 
vs. entity instances (与 实体 实例 )，53，56 
events (事件 )，56 
identifying owner (标识 主体 )，55 
instances (实例 )，56，62 
meaningful association (有 意义 的 关联 )，63 
modeling multiple relationships between (实体 
之 间 多 个 联系 的 建 模 )，75-76 
naming (命名 )，55-57 
owners (主体 )，133 
relationships (联系 )，62,，67-69 
specific to organization (组 织 特 有 的 )，56 
standard names (标准 名 字 )，56 
strong ( 强 )，55 
vs. system input，output or users (与 系统 输入 、 
输出 或 用 户 )，54 
weak ( 弱 )，55 
Equal to ( =) comparison operator (相等 比较 操作 
符 )，213 
equi-join (等 值 连接 )，234--235 
E-R data: model (E-R 数据 模型 )，122 
E-R (entity-relationship ) diagrams (E-R (实体 一 
联系 ) 图 )，47 
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derived attribute (导出 属性 )，59 
entities (实体 )，48 
entity clustering (实体 聚集 )，94 
relationships (联系 )，47，48-49 
representing attribute (表示 属性 )，57 
required and optional attributes (必需 的 和 可 选 
的 属性 )，57-58 
sample (样本 )，47-49 
supertypes and subtypes ( 超 类 型 和 子 类 型 )，94 
E-R (entity-relationship) models (E-R (实体 一 联 
系 ) 模型 )，30，45-47 
bottom-up approach ( 自 底 向 上 方法 )，78 
example (举例 )，78-80 
notation (记号 )，49-50，78，79 
top-down perspective ( 自 顶 向 下 视角 )，78 
ERP(enterprise resource planning ) systems( 企 
业 资 源 计 划 系 统 )，27，305 
Erwin，110 
Essbase，308 
Evans, M., 46, 69 
event data (事件 数据 )，314-315 
event entity types 《事件 实体 类 型 )，56 
events (trigger)( 事 件 (触发 ))，257 
EVERY function (EVERY 函数 )，211 
evolution of database systems (数据 库 系统 演化 )， 
22—24 
exactly one character (_) wildcard (单字 符 (_) 通 
配 符 )，213 
EXEC keyword (EXEC 关键 字 )，262 
EXISTS keyword (EXISTS 关键 字 )，244 
EXISTS subqueries (EXISTS 子 查 询 )，246 
EXP function (EXP 函数 )，211 
EXPLAIN command (EXPLAIN 命令 )，253 
explanatory data mining (数据 挖掘 目标 : 解释 )， 
339 
exploration warehouse (探索 型 数据 仓库 )，310 
exploratory data mining (数据 挖掘 目标 : 探索 )，339 
expression (表达 式 ) 
operators (操作 符 )，209 
precedence rules (优先 规则 )，210 
Extensible Business Reporting Language (可 扩展 
的 商业 报告 语言 )， 参见 XBRL (eXtensible 
Business Reporting Language ) 
Extensible Markup Language (可 扩展 标记 
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语言 )， 参见 XML ( eXtensible Markup 
Language) 

Extensible Stylesheet Language Transformation 
(可 扩展 样式 表 语 言 转换 )， 参 见 XSLT 
( Extensible Stylesheet Language 
Transformation ) 

extents ，files ( 范围， 文件 )，175 

external schemas (外 模式 )，21，22 

extranets (外 联网 )，28 


EF 


fact row surrogate key (事实 行 代 理 键 )，328 
facts，data marts (事实 ， 数 据 集 市 )，329-331 
fact tables (事实 表 )，3319-321 
conformed dimension (同形 维 )，325 
date dimension (日 期 维 ),，331 
date surrogate key (日 期 代理 键 )，324 
disallowing null keys (不 接受 空 键 )，331 
foreign key (外 键 )，319 
grain (粒度 )，322，331 
most detailed data (最 细节 的 数据 )，322 
multiple (多 )，324-325 
normalized n-ary associative entity (规范 化 元 
关联 实体 )，319 
primary key (主键 )，319，322 
raw data (原始 数据 )，322 
size (规模 )，323-324 
surrogate key (代理 键 )，321-322 
fat client ( 胖 客 户 端 )，270 
Federal Information Processing Standards (联邦 信息 
处 理 标 准 )， 参 见 FIPS ( Federal Information 
Processing Standards ) 
fields (字段 )，33 
composite attribute (组 合 属性 )，169 
data integrity controls (数据 完整 性 控制 )，170- 
171 
data types (数据 类 型 )，169-171 
default value( 缺 省 值 )，170 
designing (设计 )，169-171 
limited number of values (有 限 的 值 个 数 )，171 
missing data (缺失 数据 )，171 
null value control ( 空 值 控制 )，171 
range controls (范围 控制 )，171 


referential integrity (参照 完整 性 )，171 
simple attribute (简单 属性 )，169 
file-based approach vs. database approach (基于 文 
件 的 方法 与 数据 库 方法 )，10-11 
file organization (文件 组 织 )，168，175，176 一 
182 
indexed (索引 )，179-180 
sequential (顺序 的 )，178 
file processing environment (文件 处 理 环境 )，13 
file processing systems (文件 处 理 系 统 )，7-8 
files (文件 )，7 
access control (访问 控 制 )，182 
backups (备份 )，182 
descriptions (描述 )，7 
designing controls for (设计 控制 )，182 
hashed organization( 散 列 组 织 )，180-182 
indexed organization (索引 组 织 )，179-180 
indexes (索引 )，179 
operating system (操作 系统 )，175 
physical database design (物理 数据 库 设计 )， 
167, 175—182 
secondary key index (二 级 键 索 引 )，179 
security controls (安全 控制 )，182 
sequential organization (顺序 组 织 )，178 
stored according to primary key value (根据 主键 
值 存储 )，178 
Finkelstein, R., 174 
FIPS ( Federal Information Processing Standards ) 
(联邦 信息 处 理 标准 )，191 
1NF ( first normal form) (第 一 范式 )，145，149- 
150 
Fleming, C.C., 122 
FLOOR function (FLOOR 函数 )，211 
FOR clause (FOR 子 句 )，290 
foreign key constraint (外 键 约束 )，202 
FOREIGN KEY REFERENCES statementtFOREIGN 
KEY REFERENCES 语句 )，129 
foreign keys (外 键 )，124--126，128-130，200，201 
domains ( 域 )，129 
joining (连接 )，224 
logical data models (逻辑 数据 模型 )，152 
naming (命名 )，129，141 
null value ( 空 值 )，128-129 
recursive (递归 )，139 


self-join ( 自 连接 )，241 
Fowler, M., 21 
FROM clause (FROM 子 句 )，207，219 
INNER JOIN ... ON keywords (INNER JOIN .. 
ON 关键 字 )，235 
JOIN ... ON commands (JOIN ... ON 命 今 )， 
办 33 
joins (连接 )，233 
subqueries ( 子 查询 )，247 
table names order ( 表 名 顺序 )，236 
FROM keyword (FROM 关键 字 )，36，251 
front-end programs (前 端 程序 )，271 
FULL keyword (FULL 关键 字 )，233 
FULL OUTER JOIN command (FULL OUTER 
JOIN 命令 )，237 
fully normalized databases (完全 规范 化 数据 库 )， 
172 
functional dependencies ( 函数 依赖 )，145--147， 
149-150，153 
functions ( 沙 数 ， 功 能 )，209，258-259 
SQL:1999，211 
SQL:2003，211 
SQL:2008，211 
SQL ( Structured Query Language) (结构 化 查询 
语言 )，210-212 
SQL:2008 syntax (SQL: 2008 语法 )，259 


G 


garbage-in，garbage-out (无 用 输入 ， 无 用 输出 )， 
参见 GIGO (garbage-in, garbage-out) 
Gartner Group (高 德 纳 咨询 公司 )，194 
generalizations ( 特 化 )，98--99 
combining with specialization (与 泛 化 结合 )，100 
gerunds ( 动 名 词 )，65，132 
GIGO ( garbage-in，garbage-out) (无 用 输入 ， 无 
用 输出 )，342 
Google (谷歌 ) 
BigTable, 24 
Web services (Web 服务 )，295--296 
Gorman, M. M., 192 
Grance, Ts 287 
GRANT permission (GRANT 许可 )，261 
GRANT statement (GRANT 语句 )，225 
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graphical user interface (图 形 用 户 界 面 )，25 

graphic data types (图 形 数 据 类 型 )，196，197 

Greater than (>)comparison operator (大 于 (>) 
比较 操作 符 )，213 ，216-217 

Greater than or equal to( 三 ) comparison operator( 大 
于 等 于 (三) 比较 操作 符 )，213 

GROUP BY clause (GROUP BY 子 句 )，219，220- 
2 人 

GROUPING function (GROUPING 函数 )，211 

GUIDE Business Rules Project (GUIDE 业务 规则 
计划 )，50，51 

Gulutzan, PP, 259 


H 


Hackathorn, R., 302, 303,312 

Hadoop，333 

Hanson, H. H., 146 

hashed file organization ( 散 列 文件 组 织 )，180-- 
182 

hash index table ( 散 列 索引 表 )，181-182 

hashing algorithm ( 散 列 算法 )，180 

HAVING clause (HAVING 子 句 ),，219,，221-223， 
251 

Hay, D.C., 46 

Haysy"GC.s .301 

helper table (帮助 表 )，326-327 

Henschen, D., 289 

hierarchical and network database management 
systems( 层 次 和 网 状 数据 库 管 理 系统 )，24 

hierarchical database model (层次 数据 库 模型 )， 
23，24 

hierarchies (层次 ) 

dimensions( 维 )，325-328，331 
star schema ( 星 模式 )，325-328 

HIPAA ( Health Insurance Portability and 
Accountability Act) (健康 保险 携带 和 责任 
法 案 )，24 

Hoberman, S., 110, 134, 174, 175 

Hoffer, A, 17, 171 

HOLAP (hybrid OLAP)( 混 合 OLAP)，336 

Holmes, J., 252 

homonyms (同音 异 义 词 )，155 

HTML and JSP ( Java Server Pages) ( HTML 和 JSP), 
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HTTRATIPS. 2177 

“ hub and spoke ”approach (“集中 星 型 ”方法 )， 
310 

Hurwitz, J., 272 


IBM, 122 
DB2，192 
NoSQL, 333 
Watson，331 
IBM Research Laboratory (IBM 研究 实验 室 )，192 
identifier attributes (标识 符 属 性 )，59-61 
identifiers (标识 符 )，59--61，123，202 
associative entity (关联 实体 )，69 
identifying relationship ( 标识 联系 )，55 
IDM SQL ( Structured Query Language) (IDM 结 
构 化 查询 语言 )，193 
IIS ( Internet Information Server ) Web server ( 互 
联网 信息 服务 器 Web 服务 器 )，277 
image data types (图 像 数 据 类 型 )，196，197 
Imhoff, C., 310 
impedance mismatch (阻抗 失 配 )，261 
Implementation phase (实现 阶段 )，19，20-21 
INCITS ( International Committee for Information 
Technology Standards) (信息 技术 标准 国际 
协会 )，191 
incompatible databases (不 兼容 数据 库 )，3 
independent data marts ( 独立 数据 集 市 )，306- 
308 
indexed file organization (索引 文件 组 织 )，179- 
180 
indexes (索引 )，34，168，179，182-184 
composite unique key (组 合 唯一 键 )，183 
creation (创建 )，206 
dropping (删除 )，206 
hashed file organization ( 散 列 文件 组 织 )，181 
improving query performances (改进 查询 性 能 )， 
200 
limiting (限制 )，184 
null values ( 空 值 )，184 
primary keys (主键 )，206 
queries (查询 )，252，253 


RDBMS ( relational DBMS ) ( 关 系 DBMS )， 
206 
secondary(nonunique ) key index( 二 级 ( 非 唯一 ) 
键 索引 )，183 
secondary keys (二 级 键 )，206 
unique key index (唯一 键 索 引 )，182--183 
when to use(〈 何 时 使 用 )，183-184 
Informatica, 342 
Information (信息 ) 
converting data to (转换 数据 )，5-6 
data and information (数据 和 信息 )，28-29 
derived data (导出 数据 )，318 
sharing (共享 )，28-29 
informational processing (信息 型 处 理 )，301 
informational systems (信息 系统 )，306 
informational ( or decision-support) systems (信息 
(或 决策 支持 ) 系统 )，303 
information gap( 信 息 差 距 )，301 
information schema (信息 模式 )，195 
information systems (信息 系统 )， 参 见 IS (information 
Systems ) 
Informix (Informix 数据 库 系 统 )，333 
Infrastructure-as-a Service (基础 设施 即 服务 )，287 
Ingres (Ingres 数据 库 系 统 )，122 
INGRES SQL (Structured Query Language ) 
(INGRES 结构 化 查询 语言 )，193，194 
inheritance，supertype/subtype hierarchy (继承 ， 超 
类 型 / 子 类 型 层次 )，108 
INITCAP function (INITCAP 函数 )，210 
IN keyword (IN 关键 字 )，219，244 
in-memory databases (内 存 数据 库 )，24 
Inmon，B.，309 
Inmon, W., 302, 310，322 
Inmon，W. H., 172 
INNER JOIN . . .ON keywords (INNER JOIN... 
ON 关键 字 ) 235 
INNER keyword (INNER 关键 字 )，233 
inner query (内 查询 )，241，246-247 
IN operator and subqueries (IN 操作 符 和 子 查询 )， 
243 
INSERT command (INSERT 命令 )，203-204，207， 
2 
insertion anomaly (插入 异常 )，130，150 
INSERT query (INSERT 查询 )，272，274 


installation cost and complexity (安装 成 本 和 复杂 
度 )，14 
instances ( customer)，defined (实例 (客户 )， 定 
关 方 允 
INT (INTEGER) data type (INT (INTEGER) 数 
据 类 型 )，196 
INTEGER data type (INTEGER 数据 类 型 )， 参 见 
INT (INTEGER ) data type 
intelligent identifiers (智能 标识 符 )，60 
interactive SQL ( Structured Query Language) ( 交 
互 式 SQL)，261 
internal schemas (内 模式 )，22，205-206 
International Committee for Information Technology 
Standards (信息 技术 标准 国际 协会 )， 参 
见 INCITS ( International Committee for 
Information Technology Standards) 
International Organization for Standardization ( 国 
际 标 准 化 组 织 )， 参 见 ISO ( International 
Organization for Standardization ) 
Internet (因特网 ) 
database-enabled connectivity (数据 库 使 能 的 连 
接 )，276-277 
database environment (数据 库 环境 )，27-28 
as distributed computing platform (分 布 式 计算 
平 食 293 
dynamic SQL (Structured Query Language) ( 动 
态 SQL)，262 
facilitating interaction between B2C (business 
and customer)( 企 业 与 客户 间 的 交互 能 力 )， 
28 
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natural join (自然 连接 )，235-236 
outer join (外 连接 )，236-238 
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OLAP 工具 )，336 
MongoDB ，333 
MONTHS_BETWEEN function ( MONTHS _ 
BETWEEN 函数 )，210 
Moriarty, T., 341 
MRP ( material requirements planning ) (物料 需求 
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vs. single-valued attributes (与 单 值 属 性 )，59 
Mundy, J.， 334 
Murphy, P, 303 
mutually exclusive relationships ( 互 斥 联系 )，77 
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参见 ODBC (Open Database Connectivity ) 
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体系 结构 )， 参 见 ODS (operational data 
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database market (数据 库 市 场 )，194 
INNER JOIN . . .ON syntax ( INNER JOIN . . . 
ON 语法 )，235 
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执行 的 对 立 )，272 
JOIN keyword (JOIN 关键 字 )，235 
SQL (Structured Query Language) (结构 化 查询 
语言 )，192-193 
tablespaces( 表 空间 )，175 
thin driver ( 瘦 驱 动 希 )，274 
Oracle Corporation (甲骨 文公 司 )，110 
Oracle Data Reader (Oracle 数据 阅读 器 )，274 
Oracle Designer (Oracle 设计 者 )，50，110 
Oracle 11g (Oracle 11g 版 )，169 
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data dictionary view (数据 字典 视图 )，255 
data types (数据 类 型 )，169 
Oracle 11g syntax (Oracle 11g 语法 )，194 
Oracle/IBM，278 
Oracle/IBM/SQL Server (Oracle/IBM/SQL 服务 硕 )， 
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ORDER entity (ORDER 实体 )，48 
organizational data (组 织 数 据 )，16 
organizational units recursive relationship (组 织 单 
元 递归 联系 )，326 
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analyzing activities (分 析 活 动 )，305 
customer relationship management (客户 关系 管 
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limited short-term objectives (有 限 的 短期 目标 )， 
308 
modeling rules( 建 模 规 则 )，50-53 
rules and policies (规则 和 策略 )，50 
supplier relationship management (供应 商 关 系 
管理 )，305 
OrientDB ，333 
outer join (外 连接 )，236-238 
OUTER keyword (OUTER 关键 字 )，233 
outer query (外 查询 )，241，246 
overlapping specialization ( 重 释 特 化 )，108 
overlapping subtypes( 重 县 子 类 型 )，103--105 
overlap rule (重合 法 则 )，102，104 
owner ( entity)，defined (拥有 者 (实体 )， 定 义 )， 
133 
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packaged data models (打包 数据 模型 ) 

business rules (业务 规则 )，112 

complexity (复杂 度 )，110 

customizing (定制 )，110 

data profiling (数据 前 析 )，112 

mapping data (映射 数据 )，111 

metadata (元 数据 )，110 

migrating data (迁移 数据 )，111 

missing data (缺失 数据 )，112 

non-mapped data elements( 非 映射 的 数据 元 素 )， 
111 

renaming elements ( 重 命 名 元 素 )，111 

revised data modeling process with (修正 数据 建 
模 过 程 )，110-112 

universal data model (通用 数据 模型 )，110 
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parameters and procedures (参数 与 过 程 )，260 
parent table ( 父 表 )，200 
Park, E. K., 46, 69 
partial dependencies (部 分 依赖 )，150 
partial disjoint specialization (部 分 分 离 特 化 )，108 
partial functional dependencies( 部 分 函数 依赖 )， 
145，150--151 
partial identifier (部 分 标识 符 )，55 
partially normalized databases (部 分 规范 化 数据 
库 )，172 
partial specialization rule (部 分 特 化 法 则 )，101 
pascal, Es 173 
PC-database packages (PC 数据 库 包 )，192 
Pelzer, T., 259 
periodic data (周期 数据 )，315-317 
Perl (Perl 实用 报表 提取 语言 )，278 
perm space (perm 空间 )，199 
personal databases (个 人 数据 库 )，25 
petabytes (PB), 4 
PHP, 2718 
physical database design (物理 数据 库 设计 ) 
attributes (属性 )，167-168 
database architecture (数据 库 体 系 结构 )，168 
data processing efficiency (数据 人 处理 效 率 )，167 
data types (数据 类 型 )，167 
data usage descriptions (数据 用 法 描述 )，167 
and definition (定义 )，19 
denormalization (去 规范 化 )，171-175 
designing fields (设计 字段 )，169-171 
expectations or requirements (期 望 或 需求 )，167 
files (文件 )，167-168，175-182 
indexes (索引 )，168，182-184 
normalized relations (规范 化 关系 )，167 
optimal query performance (最 佳 查询 性 能 )，184- 
185 
process (过 程 )，167-168 
queries (查询 )，168 
regulatory compliance (遵从 法 规 )，168 
physical data marts (物理 数据 集 市 )，317-331 
physical files (物理 文件 )，175 
physical records (物理 记录 )，167 
physical schema (物理 模式 )，19，22 
physical specifications (物理 说 明 )，167 
Planning phase (计划 阶段 )，18 


Platform-as-a Service (平台 即 服务 )，287 
PL/SQL, 258 
embedding in 3GL programs ( 骨 入 在 3GL 程序 
中 )，261 
example routine (举例 程序 )，259-261 
stored procedures (存储 过 程 )，284 
pointers (指针 )，181 
policies，organization (原则 ， 组 织 )，50 
PostgreSQL (PostgreSQL 数据 库 )，194 
PowerDesigner, $0 
POWER function (POWER 函数 )，211 
predefined data models( 预 定义 数据 模型 )，110 
presentation logic (表示 逻辑 )，269 
PRIMARY KEY clause ( PRIMARY KEY 子 句 )， 
129 
PRIMARY KEY column constraints ( PRIMARY 
KEY 列 约束 )，200 
primary key-foreign key relationship (主键 - 外 键 
联系 )，233 
primary keys (主键 )，34，123，125，129，131， 
149 
associative relation (关联 关系 )，139-140 
composite (复合 )，134 
data values for (数据 值 )，126 
dimension tables ( 维 表 )，319 
domains ( 域 )，129 
fact table (事实 表 )，319，322 
indexes (索引 )，206 
naming (命名 )，129，141 
null values( 空 值 )，127 
redundant attributes (元 余 属 性 )，149 
surrogate (代理 )，134-135 
uniqueness (唯一 性 )，183 
values ( 值 )，202 
procedures (SQL routines )( 过程 (SQL 例 程 ) )， 
258-261 
processing (处 理 ) 
multiple tables (多 表 )，233-250 
single tables ( 单 表 )，207-225 
processing logic (处理 逻 辑 )，269 
PRODUCT entity (PRODUCT 实体 )，48 
product information (产品 信息 )，81 
productivity，SQL programmers (生产 力 ，SQL 程 
序 员 )，193 


product line information (产品 线 信 息 )，81-82 
profiling，data analysis (性 能 分 析 ， 数 据 分 析 )， 
112 
programming languages (编程 语言 )，271-272 
programs (程序 ) 
data dependence (数据 依赖 )，7 
reduced maintenance (减少 维护 )，13 
project data model (工程 数据 模型 )，32 
projects，planning (工程 ， 计 划 )，30 
prototyping，database ( 原型， 数据 库 )，20， 
30，36 
purchased data model (购买 的 数据 模型 )，111 
PVFC database files ( PVFC 数据 库 文件 )，197- 
198 
Python (Python 语言 )，278 


Q 


QBE (query-by-example ) interface ( 按 例 查询 接口 )， 
192 
qualifiers ，data attributes (限定 词 ， 数 据 属性 )，6]1 
quality data (质量 数据 )， 参 见 data quality 
queries (查询 )，13，24，33 ，35 
aliases(〈 别 名 )，208-209 
attributes (属性 )，251-252 
Boolean operators (布尔 操作 符 )，214-216 
categorizing results (分 类 结果 )，220-221 
combining (结合 )，248-250 
complex (复习 )，252 
counting selected rows〈 计 数 选择 的 行 数 )，212 
data types (数据 类 型 )，252 
debugging (调试 )，222，251 
design，guidelines (设计 ， 指引 )，252-253 
displaying all columns ( 显示 所 有 列 )，208 
distinct values (不 同 的 值 )，217-218 
duplicate rows (重复 的 行 )，208，217-218 
exceptions to data (例外 数据 )，251 
formatting dates (格式 化 日 期 )，213 
four-table join ( 4 表 连 接 )，238-239 
improving performance (改进 性 能 )，206 
indexes〈 索 引 )，252，253 
matching list values (匹配 列表 值 )，219 
nesting (网 套 )，253 
null values ( 空 值 )，214 
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optimal performance (最 佳 性 能 )，184-185 

optimizer statistics up-to-date( 最 新 的 优化 统计 )， 
252 

processing time (处 理 时 间 )，179，253 

qualifying results by categories (分 类 结果 )，221- 
223 

range of values ( ) operators ( 值 范 围 ( ) 操作 
符 )，216-217 

results (结果)，251 

result table (结果 表 )，208 

retrieving only data needed ( 仅 检 索 需 要 的 数 
据 )，253 

row value( 行 值 )，211-212 

running without errors (运行 无 错 )，251 

set value (集合 值 )，211-212 

simplifying (简化 )，252 

sorting results (排序 结果 )，219-220 

strategies for handling (处 理 策 略 )，168 

subqueries( 子 查询 )，82，241-246 

temporary tables (临时 表 )，253 

testing (测试 )，207，251 

tips for developing (开发 的 小 窗 门 )，250-253 

update operations (更 新 操作 )，253 

query-by-example interface ( 按 例 查询 接口 )， 参 
见 QBE (query-by-example ) interface 
Quinlan, T., 284 


R 


RAD (rapid application development) methods ( 快 
速 应 用 开发 方法 )，20 
range of values ( ) operators ( 值 范围 ( ) 操作 符 )， 
216-217 
rapid application development methods (快速 应 用 
开发 方法 )， 和 参见 RAD (rapid application 
development) methods 
RDBMS (relational DBMS )( 关 系 DBMS )，194 
commercial products (商用 产品 )，122 
data types (数据 类 型 )，197 
error codes (错误 代码 )，251 
improving data display (改进 数据 显示 )，209 
indexes《〈 索 引 )，206 
internal schema definition (内 部 模式 定义 )，205-- 
206 
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JOIN . . . USING syntax(JOIN . .. USING 语法 )， 
过 3 
multiple tables (多 重 表 )，233 
outer joins (外 连接 )，236-238 
removing data (删除 数据 )，203 
SQL (Structured Query Language) (结构 化 查询 
语言 )，194 
transaction integrity (事务 完整 性 )，253-255 
real-time data warehouse architecture (实时 数 
据 仓 库 体 系 结构 )，310-312 
real-time data warehouses (实时 数据 仓库 )，311 
real-time data warehousing (实时 数据 仓库 )，312 
reconciled data (调和 数据 )，313 
records (记录 )，123 
logically deleted (化 辑 删 除 )，317 
recovery，explicit (恢复 ， 显 式 )，14 
recursive foreign key (递归 外 键 )，139 
recursive relationships (递归 联系 )，67，139，326 
Redman, T., 343 
redundancies，minimizing( 宛 余 ， 极 小 化 )，172 
reference data and denormalization (引用 数据 和 
去 规范 化 )，174 
REFERENCES SQL clause (REFERENCES SQL 
于 人名) 202 
reference tables (参照 表 )，327-328 
referential integrity (引用 完整 性 ) 
constraints (约束 )，128-129，144 
fields (字段 )，171 
foreign key constraint( 外 键 约束 )，202 
regular entities (常规 实体 )，131，132-133，144 
regulatory compliance for physical database design 
(物理 数据 库 设计 遵从 法 规 管理 )，168 
relational databases (关系 数据 库 )，10，23，24 
composite key (组 合 键 )，125 
data warehouses (数据 仓库 )，303 
foreign key (外 键 )，125-126 
identification number (标识 号 )，10 
indexes(〈 索 引 )，183 
primary key (主键 )，125 
removing multivalued attributes from tables ( 从 
表 中 删除 多 值 属 性 )，124 
retrieving and displaying data (检索 和 显示 数据 )， 
13 
sample (样本 )，124 


schema (模式 )，124-125 
SQL-based (基于 SQL)，194 
structure (结构 )，124 
tables ( 表 )，34 
relational data model (关系 数据 模型 )，13，24，46 
associations between tables ( 表 之 间 的 关联 )，128 
attributes (属性 )，127 
based on mathematical theory (基于 数学 理论 )， 
122 
constraints (约束 )，126-131 
data integrity (数据 完整 性 )，122 
data manipulation (数据 操作 )，122 
data structure (数据 结构 )，122 
domain constraints( 域 约束 )，126 
entity integrity rule (实体 完整 性 规则 )，126- 
er 
feasibility test of (可 行 性 测试 )，122 
referential integrity constraint (引用 完整 性 约 
束 )，128--129 
relational data structure (关系 数据 结构 )，123 
relational keys (关系 键 )，123 
tables ( 表 )，122-123，129-130 
well-structured relations (好 结构 关系 )，130- 
131 
relational DBMS (关系 DBMS)， 参 见 RDBMS 
(relational DBMS ) 
relational integrity constraint (关系 完整 性 约束 )， 
2 
relational keys (关系 键 )，123-124 
relational operators (关系 操作 符 )，194 
relational schema (关系 模式 )，152 
Relational Software (关系 软件 )，193 
Relational Technology (关系 技术 )，193 
relations (关系 )，9-10，132 
anomalies (异常 )，130-131 
attributes (属性 )，123，125，132 
composite key (组 合 键 )，123 
consistency (一 致 性 )，128 
“defined (定义 )，123 
functional dependencies〈 顶 数 依 赖 )，147 
merging (合并 )，153-156 
named columns (命名 的 列 )，123 
nonkey attributes( 非 主 属性 )，151 
normalization (规范 化 )，148-153，167，172 


primary keys〈 主 键 )，123，126，131，134，149 

properties (特性 )，124 

records (记录 )，123 

relationship between (之 间 的 联系 )，124 

repeating groups (重复 组 )，149 

2NF (second normal form)( 第 二 范式 )，150- 
151 

structure (结构 )，123 

subtypes ( 子 类 型 )，142 

supertype ( 超 类 型 )，142 

tables ( 表 )，124 

3NF (third normal form)( 第 三 范式 )，151-153 

transforming EER diagrams into (转换 EER 图 )， 
131-144 

unnamed rows( 非 命名 行 )，123 

values ( 值 )，126 

well-structured (好 结构 )，130-131 

relationships (联系 )，9-10 

associative entities (关联 实体 )，65，68-69， 
Tl, 175 

attributes (属性 )，62 ，63-65 

basic concepts (基本 概念 )，63--65 

binary (二 进 制 )，67，135-137 

binary many-to-many (二 元 多 对 多 )，135S-136 

binary one-to-many (一 元 一 对 多 )，135 

binary one-to-one (二 元 一 对 一 )，136-137 

business rules (业务 规则 )，48-49，62 

cardinalities (基数 )，48-49，71-73 

defining (定义 )，77-78 

degree of ( 度 )，66-69 

entities (实体 )，33-34, 47，62，66-69 

E-R diagrams(entity-relationship diagrams )(E-R 
图 (实体 -联系 图 ))，47 

E-R (entity-relationship ) model (实体 - 联系 模 
型 )，47 

history (历史 )，77-78 

Instances (实例 )，63 

many-to-many (多 对 多 )，62，67，68 

maximum cardinalities (最 大 基数 )，72 

minimum cardinality (最 小 基数 )，71-72 

modeling ( 建 模 )，62-78 

mutually exclusive ( 互 斥 )，77 

naming (命名 )，54，76-77 

n-ary (n 元 )，141 
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1:M (one-to-many)( 一 对 多 )，67 
1:1 (one-to-one )( 一 对 一 )，67 
recursive (递归 )，67，139 
restrictions on participation in (参与 限制 )，77 
supertype/subtype(〈 超 类 型 / 子 类 型 )，94-100， 
141—143 
tables ( 表 )，233 
ternary (三 元 )，68-69，73-74，141 
types (类 型 )，63 
unary (一 元 ), 67, 71; 139-14] 
unary many-to-many (一 元 多 对 多 )，139-141 
unary one-to-many (一 元 一 对 多 )，139 
Rennhackkamp, M., 256 
repeating groups (重复 分 组 )，145，149 
repositories (仓库 )，11，15 
required attributes vs. optional attributes ( 必需 
属性 与 可 选 属 性 )，57--58 
required or optional value (必需 的 或 可 选 的 值 )， 
01] 
reserved words and aliases (保留 字 和 别名 )，225 
RESTRICT keyword (RESTRICT 关键 字 )，203 
ResultSet object (结果 集 对 象 )，274 
result tables (结果 表 )，208，209，236-237 
RETURN clause (RETURN 子 句 )，290 
reverse-engineering older systems ( 逆 疝 工程 早期 
系统 )，144 
REVOKE permission (REVOKE 许可 )，261 
REVOKE statement (REVOKE 语句 )，225 
RIGHT keyword (RIGHT 关键 字 )，233 
RIGHT OUTER JOIN syntax ( RIGHT OUTER 
JOIN 语法 )，237-238 
Ritter, D., 14 
Rodgers, U., 172 
ROLAP (relational OLAP )tools (关系 OLAP 工 
具 )，336 
ROLLBACK WORK command ( ROLLBACK 
WORK 命令 )，254 
roots，subtypes ( 根 ， 子 类 型 )，106 
Ross，M.，300 
ROUND function (ROUND 函数 )，210 
routines( 例 程 )，258-259 
applicability (适用 范围 )，258 
efficiency (效率 )，258 
explicitly called ( 显 式 调用 )，258 
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flexibility (灵活 性 )，258 
functions (功能 )，258-259 
not running automatically ( 非 自 动 运行 )，256 
PL/SQL example (PL/SQL 举例 )，259-261 
procedural code blocks (过 程 代码 块 )，256 
procedures (过 程 )，258-259 
sharability (共享 )，258 
SQL-invoked (SQL 调用 )，258 

Russom, P, 341, 343 

Rutter, Brad, 331 


Salins Ts 3] 
Sarbanes-Oxley Act ( 萨 班 斯 法 案 )， 参 见 SOX 
(Sarbanes-Oxley Act ( 2002 ) ) 
scalability，three-tier architectures (可 扩展 性 ， 三 
层 体系 结构 )，286 
scalar aggregate (标量 聚集 )，220-221 
scatter index table (分 散 索 引 表 )，181-182 
schemas (模式 )，124--125 
base tables (基本 表 )，223 
conceptual (概念 )，18，22 
databases (数据 库 )，195 
destroying (毁坏 )，200 
external (外 部 )，22 
graphical representation (图 形 表示 )，125 
instance of creation (创建 实例 )，126 
internal (内 部 )，22，205-206 
logical (逻辑 )，18，22 
physical (物理 )，19，22 
relationship between (之 间 联 系 )，21-22 
text statements (文本 语句 )，124--125 
Schumacher, R., 184 
SCM ( supply chain management) systems (供应 


链 管 理 系统 )，27 
SDLC ( systems development life cycle) ( 系统 
开发 生命 周期 ) 


Analysis phase (分 析 阶 段 )，18 

conceptual data modeling (概念 数据 建 模 )，18 
database implementation (数据 库 实现 )，19 
database maintenance (数据 库 维护 )，19 
Design phase (设计 阶段 )，18-19 

enterprise modeling (企业 建 模 )，18 


Implementation phase (实现 阶段 )，19 
logical database design (逻辑 数据 库 设 计 )， 
18—19 
Maintenance phase (维护 阶段 )，19 
physical database design and definition (物理 数 
据 库 设计 和 定义 )，19 
Planning phase (计划 阶段 )，18 
relationship between schemas (模式 间 的 联系 )， 
21-22 
secondary key index (二 级 键 索引 )，179 
secondary keys (二 级 键 )，206 
2NF ( second normal form) (第 二 范式 )，145， 
150—151 
security (安全 ) 
data (数据 )，6 
embedded SQL (Structured Query Language)( 
套 SQL (结构 化 查询 语言 ))，261-262 
log files (日 志文 件 )，256 
views (视图 )，225 
SELECT command (SELECT 命令 )，36，196，205， 
207-209，255 
ALL keyword (ALL 关键 字 )，218 
FROM clause (FROM 子 句 )，207 
COLUMN clause (COLUMN 了 于 句 )，209 
DISTINCT keyword (DISTINCT 关键 字 )，218 
order of clauses ( 子 句 顺序 )，208 
qualifiers〈 限 定 符 )，208 
WHERE clause (WHERE 子 句 )，207，233 
wildcards (* ) character (* 通配符 )，213 
SELECT query (SELECT 查询 )，274 
self-joins (上 自 连 接 )，239-241 
sensitivity testing (灵敏 度 测试 )，171 
sequential file organization (顺序 文件 组 织 )，178 
servers (服务 侣 ) 
database (数据 库 )， 参 见 database servers 
three-tier architectures (三 层 体系 结构 )，276 
service-oriented architecture( 面向 服务 的 体系 结构 )， 
参见 SOA (service-oriented architecture ) 
SET command (SET 命令 )，205 
Sharda，R.，341 
SHIPMENT entity (SHIPMENT 实体 )，48 
silos (孤岛 )，303 
Silverston, L., 110 
simple attributes (简单 属性 )，169 


Vs. composite attributes (与 组 合 属 性 )，58 
Simple Object Access Protocol( 简单 对 象 访问 协议 )， 
参见 SOAP (Simple Object Access Protocol ) 
single-attribute surrogate identifiers ( 单 属性 代理 
标识 符 )，61 
single-process fact tables ( 单 过 程 事 实 表 )，331 
single-valued attributes ( 单 值 属性 )，59 
SmartDraw (SmartDraw 商业 绘图 软件 )，50 
smartphones (智能 手机 )，292 
snowflake schema (雪花 模式 )，327--328 
SOA ( service-oriented architecture) (面向 服务 
的 体系 结构 )，296 
SOAP ( Simple Object Access Protocol) (简单 
对 象 访问 协议 )，294 
Software-as-a Service (软件 即 服务 )，287 
SOME function (SOME 函数 )，211 
Song, 1.-Y., 46, 69 
sorting (排序 )，219-220，253 
SOX ( Sarbanes-Oxley Act ( 2002 ) ) ( 萨 班 斯 法 案 
(2002 ) )，24，168，341 
specialization ( 特 化 )，99-100，105--106 
SPL (Structured Product Labeling)( 结 构 化 的 产品 
标签 )，289 
SQL/86 (SQL/86 标准 )，193 
SQL:1999 
functions (上 晒 数 )，211 
SQL/CLI (SQL Call Level Interface) (SQL 调用 
级 接口 )，262 
SQL:2008 
CREATE SQL DDL command ( CREATE SQL 
DDL 命令 )，199 
functions (函数 )，211 
procedure and function syntax (过 程 与 图 数 语 
法 259 
SQL (Structured Query Language)( 结 构 化 查询 语 
言 )，13，24 
basic operations (基本 操作 )，193 
Boolean operators (布尔 操作 符 )，214-216 
comparison operators ( 比较 操作 符 )，213 
data integrity controls (数据 完整 性 控制 )，202 
data structures (数据 结构 )，193 
data types (数据 类 型 )，196-197 
day-time intervals (时 间 间 隔 )，209 
defining database (定义 数据 库 )，199-203 
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dynamic (动态 )，261，262 
embedded (其 套 )，261 
expressions (表达 式 )，209-210 
extending (扩展 )，261 
functions( 限 数 )，209，210-212 
generating code on the fy (快速 生成 代码 )，262 
IDM, 193 
INGRES, 193 
interactive (交互 )，261 
null values(〈 空 值 )，214 
OLAP querying (OLAP 查询 )，334-335 
Oracle, 192—193 
Oracle 11g syntax (Oracle 11g 语法 )，194 
order of alphabet (字母 序 )，212 
origins of standard (标准 起 源 )，192--194 
PC-database packages (PC- 数据 库 包 )，192 
processing order of clauses ( 子 句 处 理 顺 序 )，222 
products supporting (产品 支持 )，194 
queries (查询 )，13 
RDBMS (relational DBMS )( 关 系 DBMS )，194 
relational operators (关系 操作 符 )，194 
set-oriented language (面向 集合 语言 )，216，261 
special clauses for ranking questions (排序 问题 
的 专用 子 句 )，335 
Sybase, 193 
syntax and semantics (语法 和 语义 )，193 
views (视图)，223-225 
year-month intervals (年 一 月 间隔 )，209 
SQL-based relational database application ( 面 问 
SQL 关系 数据 库 应 用 )，194 
SQL/CLI (SQL Call Level Interface)(SQL 调用 级 
接口 )，262 
SQL commands (SQL 命令 ) 
abiguity (歧义 )，208 
brackets ( 方 插 号 )，199 
capitalization (大 写 )，198 
DCL ( data control language) commands (数据 
控制 语言 命令 )，196 
DDL ( data definition language) commands ( 数 
据 定 义 语言 命令 )，195 
DML(data manipulation language ) commands( 数 
据 操作 语言 命令 )，195-196 
ellipsis (省 略 号 )，199 
embedding (网 入)，196，262 
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lowercase and mixed-case words (小 写 和 混合 
字 )，199 
semicolon (分 号 )，199 
3GLs(third-generation languages)( 第 三 代 语 言 )， 
261-262 
SQL/DS, 193 
SQL environment (SQL 环境 )，194-199 
catalogs (目录 )，194--195 
databases (数据 库 )，194 
SQL:2008 standard (SQL:2008 标准 )，194 
SQL-invoked routines (SQL 调用 例 程 )，258 
SQL*Plus and aliases (SQL*Plus 和 别名 )，208 
SQL Server (SQL 服务 器 )，192，272，291 
INNER JOIN .. .ON syntax (INNER JOIN ... 
ON 语法 )，235 
JOIN keyword (JOIN 关键 字 )，235 
triggers (触发 器 )，256 
SQL Server 2008 
control over physical storage (控制 物理 存储 )，199 
datatypes in (数据 类 型 )，196-197 
SQL Server/Oracle (SQL 服务 器 /Oracle )，278 
SQRT function (SQRT 函数 )，211 
stand-alone databases (独立 数据 库 )，14，30 
standard format (标准 格式 )，61 
standardized relational language benefits (标准 化 
的 关系 语言 优点 )，193 
Standard PVFC file (标准 PVFC 文件 )，197 
standards ，enforcing (标准 ,强制 )，12 
star schemas ( 星 模式 ) 
ad hoc queries (特殊 查询 )，318，319 
dimension tables( 维 表 )，319 
example (例子 )，320-321 
fact tables (事实 表 )，319-321 
grain of fact table (事实 表 的 粒度 )，322 
hierarchies (层次 )，325-328 
matrix，modeling questions through (和 矩 阵 ， 建 
模 问 题 )，329-330 
modeling date and time ( 建 模 日 期 和 时 间 )，324 
multiple fact tables (多 种 事实 表 )，324-325 
raw data (原始 数据 )，322 
size of fact table (事实 表 的 大 小 )，323-324 
slowly changing dimensions ( 绥 变 维 )，328-329 
snowflake schema (雪花 模式 )，327-328 
surrogate keys (代理 键 )，321-322 


status data (状态 数据 )，314-315 
storage logic (存储 逻辑 )，269 
stored attributes vs. derived attributes (存储 属性 
与 导出 属性 )，59 
stored procedures (存储 过 程 )，284 
storing data (存储 数据 )，6 
string function (字符 串 限 数 )，210 
strong data security ( 强 数据 安全 )，5 
strong entities ( 强 实体 )，55 
structural assertion (结构 断言 )，51 
structured data types (结构 数据 类 型 )，4 
Structured Query Language (结构 化 查询 语言 )， 
参见 SQL (Structured Query Language ) 
subqueries〈 子 查询 )，82，219，241--246 
ALL qualifier (ALL 限定 词 )，243 
ANY qualifier (ANY 限定 词 )，243 
FROM clause (FROM 子 句 )，247 
correlated (关联 )，246-247 
derived tables (导出 表 )，247-248 
errors of logic (错误 逻辑 )，251 
EXISTS keyword (EXISTS 关键 字 )，244-246 
as independent query (独立 查询 )，243 
list of values( 值 列表 )，243 
logical operators (逻辑 操作 符 )，243 
nested (枕套 的 )，241 
NOT EXISTS keyword ( NOT EXISTS 关键 字 )， 
244-240 
NOT qualifier (NOT 限定 词 )，243 
IN operator (IN 操作 符 )，243 
returning nonempty (empty ) set (返回 非 空 ( 空 ) 
集合 )，244 
returning zero (返回 0 )，243 
select list (选择 列表 )，246 
WHERE clause (WHERE 子 句 )，247 
SUBSTR function (SUBSTR 因数 )，210 
subtraction (- ) operator (减法 (-) 操作 符 )，209 
subtype discriminators ( 子 类 型 鉴别 子 )，102- 
105 
subtypes ( 子 类 型 ) 
attributes (属性 )，94-97 
completeness constraints (完全 约束 )，101 
disjoint (分 离 )，103 
overlapping (重合 )，103--105 
relations (关系 )，142 


root ( 根 )，106 
specialization ( 特 化 )，106 
unique attributes (唯一 性 属性 )，97 
SUM function (SUM 函数 )，210 
Sun Microsystems (Sun 微 系统 公司 )，194 
supertypes ( 超 类 型 )，93--100 
attributes (属性 )，95，96-97 
completeness constraints (完全 约束 )，101 
relations (关系 )，142 
supertype/subtype hierarchies ( 超 类 型 / 子 类 型 
层次 ) 
attributes (属性 )，106 
example (例子 )，105-106 
inheritance (继承 )，108 
root ( 根 )，106 
supertype/subtype relationships ( 超 类 型 / 子 类 型 
联系 )，141-144，156 
basic concepts (基本 概念 )，94-97 
constraints (约束 )，100-106 
data model ( 数据 模型 )，108 
example (例子 )，95-96 
generalization ( 泛 化 )，98--99 
notation (标记 法 )，94-97 
specialization ( 特 化 )，99-100 
subtype discriminators ( 子 类 型 鉴别 子 )，102- 
105 
supertype/subtype hierarchy ( 超 类 型 / 子 类 
型 层次 )，105--106 
when to use ( 何 时 使 用 )，97 
SUPPLIER entity (SUPPLIER 实体 )，48 
supplier relationship management (供应 商 关 系 管 
理 )，305 
supply chain management systems (供应 链 管 理 系 
统 )， 参 见 SCM ( supply chain management) 
systems 
surrogate keys (代理 键 )，141，321-322，328，331 
surrogate primary key (代理 主键 )，134-135 
Sybase，Inc. (Sybase 公司 )，193，194，332 
synonyms ( 同义词)，154--155，304 
system developers (系统 开发 者 )，15 
system of record (记录 系统 )，6 
System R, 122, 192-193 
systems development life cycle( 系统 开发 生命 周期 )， 
参见 SDLC (systems development life cycle) 
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systems development projects (系统 开发 项 目 )， 
L6, 4 

systems of record (记录 系统 )，303，306 
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applications (应 用 )，179 
transaction processing monitor (事务 处 理 监 控 器 )， 
参见 TP (transaction processing ) monitor 
transactions (事务 )，254，314 
aborting (天 折 )，254 
defining boundaries of (定义 边界 )，254 
ensuring integrity (保证 完整 性 )，253-255 
managing (管理 )，254 
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